首页
读书
网课
《人工智能》目录


正文

一项来自 Meta 公司 FAIR 团队、宾夕法尼亚州立大学和加州大学伯克利分校的新研究发现,改变答题顺序会导致大规模多任务语言理解(MMLU)数据集上的模型准确率显著下降,顶级模型的准确率可能会下降 10-20%。这表明现有排行榜的可靠性可能不如预期。研究人员建议在评估大语言模型(LLMs)时,需要额外考虑每个模型在随机回答情况下的准确率,以调整排行榜测试的标准规则。


上一篇: 没有了
下一篇: 没有了
圣贤书院