当前位置:网站首页>历时2年442位作者132个机构!Google发布语言模型评价新基准BIG-bench,204个任务全面评价语言模型能力,附论文

历时2年442位作者132个机构!Google发布语言模型评价新基准BIG-bench,204个任务全面评价语言模型能力,附论文

2022-06-10 18:58:00 智源社区

如何评价语言模型是个非常重要的问题,今天,Google发布语言模型评价新基准BIG-bench,204个任务全面评价语言模型能力,旨在超越图灵测试,更加准确地实现语言模型落地。

随着规模的扩大,语言模型既表现出定量的改进,又表现出新的定性能力。尽管它们具有潜在的变革性影响,但这些新能力的特征还不明确。为了指导未来的研究,为颠覆性的新模型能力做好准备,并改进社会有害影响,我们了解语言模型现在和近期的能力和局限性是至关重要的。为了解决这一挑战,我们引入了超越模仿游戏基准(BIG-bench)。 BIG-bench目前包含204项任务,由来自132个机构的442位作者贡献。任务的主题是多样化的,从语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等。BIG-bench专注于那些被认为超出当前语言模型能力的任务。我们评估了OpenAI的GPT模型、Google内部密集transformer架构以及BIG-bench上switch式的稀疏transformer 的行为,这些模型的大小涵盖了数百万到千亿的参数。此外,为了提供强有力的基准,一组人类专家评分人员执行了所有任务。研究结果包括: 模型性能和校准都随着规模的增加而提高,但绝对值较差(与评分者的性能相比); 跨模型类的性能非常相似,尽管这得益于稀疏性;可预测的逐步提高的任务通常涉及大量知识或记忆成分,而在临界尺度上表现出“突破性”行为的任务通常涉及多个步骤或成分,或脆性指标;在模棱两可的环境中,社会偏见通常会随着规模的增加而增加,但这可以通过提示来改善。

项目地址:https://github.com/google/BIG-bench/#creating-a-programmatic-task

原网站

版权声明
本文为[智源社区]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/17876