而在在新Ⅱ卷的评测中天博官网网页

发布日期:2024-06-27 17:12    点击次数:164

近日,复旦大学NLP(当然言语科罚)现实室LLMEVAL团队发布了2024年高考数学大模子评测的后果。在此次评测中,阿里千问和讯飞星火分离得到了2024高考数学新I卷的第又名和第二名天博官网网页,以及高考数学新II卷的第二名和第又名,两份考卷的评测中,GPT-4o均列第三名。

复旦NLP团队以为,全新出炉的高锤真金不怕火题具备高度的创始性和守密性,是用来评测大模子的绝好评测蚁集。在新Ⅰ卷中,阿里千问和讯飞星火对14谈数学客不雅题的准确率达到70%以上,大幅最初GPT-4o的57%,字节豆包、智谱清言、百川等大模子紧随自后,准确率跳跃50%,百度文心一言、腾讯元宝、Kimi等大模子准确率较低。而在在新Ⅱ卷的评测中,讯飞星火、阿里千问、GPT-4o准确率均跳跃60%,其他大模子的差距较小,除百川、DeepSeek和海螺以外,准确率均在50%以上。

数学才能是GPT-4o一直以来引以为傲的才能模块,OpenAI在5月14日的发布会上推出大言语模子GPT-4o时,曾要点演示其数学才能。

在现场演示中,GPT-4o哄骗其及时的图像识别和语音才能进行在线教悔。从评测后果不错看出,阿里千问和讯飞星火对数常识题的深化泄漏和分析才能如故跳跃GPT-4o,使其在高考数学试题的解答上具有更高的准确率。有网友暗示,作念数学题毕竟如故咱中国东谈主的特长。

以阿里千问和讯飞星火为代表天博官网网页,国产东谈主工智能大模子在数学限度的出色才能,为改日东谈主工智能时刻在西席限度的应用提供了有劲缓助。