谷歌全新基准全面评估时间推理能力

谷歌全新基准：全面评估时间推理能力

新智元报道编辑：alan【新智元导读】近日，来自谷歌DeepMind的研究人员，推出了专门用于评估大语言模型时间推理能力的基准测试——TestofTime（ToT），从两个独立的维度分别考察了LLM的时间理解和算术能力。大语言模型的时间推理能力怎么样？我们先来看一道幼儿园的题目：给出切尔西历年的主教练名单，向模型提问：Pochettino之前的教练是谁？此时，LLM能够给出正确的回答（Lampard），——貌似有点实力？但是，如果我们把人名来个变量代换（E1~E5），其他内容保持不变，LLM瞬间就降智了：事实上，在...

科技 2024-07-17 594 0 谷歌全新基准全面评估时间推理能力

1