谷歌全新基准全面评估时间推理能力
-
谷歌全新基准:全面评估时间推理能力
新智元报道编辑:alan【新智元导读】近日,来自谷歌DeepMind的研究人员,推出了专门用于评估大语言模型时间推理能力的基准测试——TestofTime(ToT),从两个独立的维度分别考察了LLM的时间理解和算术能力。大语言模型的时间推理能力怎么样?我们先来看一道幼儿园的题目:给出切尔西历年的主教练名单,向模型提问:Pochettino之前的教练是谁?此时,LLM能够给出正确的回答(Lampard),——貌似有点实力?但是,如果我们把人名来个变量代换(E1~E5),其他内容保持不变,LLM瞬间就降智了:事实上,在...