两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
为什么一部分 Go 布道师的博客不更新了?
印度50年内会不会超越中国?
为什么有的女生喜欢穿紧身牛仔裤?
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
有一张巨强的显卡是什么体验?
歼20速度接近3马赫是什么水平?
为什么微软还没有倒闭?
小米澎湃OS保留了多少安卓代码?
有什么是你去了上海才知道的事情?
独立开发桌面程序(Windows)UI框架选择哪个更好?
鸿蒙是换皮安卓吗?
Swift 和同时代的其他语言比起来怎么样?
有哪一个瞬间让你对女朋友彻底失望?
MacOS真的比Windows流畅吗?
有一个乌克兰的朋友问我,中国人凭什么能享受和平,我该怎么说?
各双拼输入方案之间有明显的优劣之分吗?
什么是 5G 固定无线接入(FWA)?
如何评价新时代游戏引擎Electron?
想要入行音***开发,但是没有相关项目经验怎么办?
孔雀鱼的种类是如何划分等级的呢?
据说go和c#的开发者都说自己比较节省内存,你们认为呢?
golang和rust你选择哪个?
如何看待 2026QS 世界大学排名?
现在读写速度最快的硬盘,能在30年前的计算机上当做内存使用吗?
国内***购 5000 万台电脑,***用100% 国产芯和操作系统,意味着什么?
我听说Windows12微软就直接重头构建Windows了,就直接重构Win内核了,到底是不是真的?
evernote 替代品有哪些?
为什么人到中年,很少有身材苗条的?
明星现实中真的很漂亮吗?
如果看待林丹这句话 “网球的强度远远没有羽毛球大”?