一项来自 Meta 公司 FAIR 团队、宾夕法尼亚州立大学和加州大学伯克利分校的新研究发现,改变答题顺序会导致大规模多任务语言理解(MMLU)数据集上的模型准确率显著下降,顶级模型的准确率可能会下降 10-20%。这表明现有排行榜的可靠性可能不如预期。研究人员建议在评估大语言模型(LLMs)时,需要额外考虑每个模型在随机回答情况下的准确率,以调整排行榜测试的标准规则。
To view this video please enable JavaScript,and consider upgrading to a web browser that supports HTML5 video
This is a modal window.
Beginning of dialog window.Escape will cancel and close the window.
End of dialog window.