Advertisement

论文笔记:Evaluating the Performance of Large Language Models on GAOKAO Benchmark

阅读量:

1 论文思路

采用zero-shot prompting的方式,将试题转化为ChatGPT的输入

对于数学题,将公式转化为latex输入

主观题由专业教师打分

2 数据

2010~2022年,一共13年间的全国A卷和全国B卷

3 结论

3.1 不同模型的zeroshot 高考总分


3.2 各科主观题&客观题得分



3.3 不同年份的得分

全部评论 (0)

还没有任何评论哟~