当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
伊以的对轰证明伊朗似乎没那么菜!美国会下场吗?
有一个乌克兰的朋友问我,中国人凭什么能享受和平,我该怎么说?
为什么韩国的热辣舞团无法征服中国的男性市场??
如何评价前端框架 Solid?
为什么中国很少有人使用linux?
如何看待《剑星》已登顶 Steam 全球热销榜?
如果SSD硬盘闲置很多年,内部数据会不会丢失?
《凡人修仙传》的韩立有 72 把金雷竹做的剑,其他人看见了不觉得奇怪吗?
分享一下你用过好用的开源项目有哪些?
如何看待青海黄河源发现秦始皇遣使「***药昆仑」石刻?
为什么不趁以色列美国与伊朗打的火热的时机收复台湾呢?
用了几年大厂云服务器,现在想换便宜的,有推荐的吗?
你们听过领导最没水平的一句话是什么?
edge浏览器本地用户可以导出收藏夹和历史记录等数据吗?
胸大的女孩子有什么烦恼?
你见过的最舒适的办公环境是什么?
雷军为什么不愿意用性价比打法进军NAS?
为什么央视不再报道洛杉矶***了?
***拍大尺度片子时摄影师不会看光吗?
你敢现在把你复制到剪贴板的东西粘贴出来吗?
主流的云厂商各自优势在哪里?
你知道哪些餐饮界的暴利菜品?
目前最具性价比的全栈路线是啥?
HTTP/3 解决了什么问题,又引入了什么新问题?
有没有什么软件是适合老师出题考试用的?
双色车身为什么只有劳斯莱斯看着最顺眼?其他的差在哪里了?
鱼缸哪里买比较便宜呢?
如何看待日本小学校园餐只有一小块鸡肉?
做一个中国的微软到底有多难?