又一场争论爆发了股票t+o交易平台。
这次争论的是: 关于LLM 的本质。
而主角则是AI 领域著名的“ 永远正确先生” Gary Marcus,和80000Hours 的创始人Benjamin Todd。
关于Gary Marcus 是谁,DeepSeek 这样介绍的:
至于争论的导火索,则是一条看似普通的推文。
Benjamin Todd 发文指出Gary Marcus 总是在预测“ AI做不到某事”,而实际上AI早就能做到了。
展开剩余94%相信你都会觉得过分的是, Todd 的文章标题叫做:《 Gary Marcus 表示,AI 无法做它已经可以做的事情》,并在文中列举展示了Marcus 从2020 年至今的几次“错误预测”:
Marcus的神预测
并且还得到大量网友声援:
看到这里,好像文章的标题 《Gary Marcus 表示,AI 无法做它已经可以做的事情》虽然矛盾,但也挺合理?
你有没有好奇, 看到文章的Marcus 会作何感想?
如你所料,自然是 非常火大:
说我不对也就算了, 还要嘲笑我小气不舍得包月?
说我不对也就算了, 还要嘲笑我小气不舍得包月?
试想,换你能你受得了?!!
必须给出强烈回应!!!
于是,暴怒的Marcus 立刻发文回应称自己从未说过“ AI 做不到X”,而是特指“ 纯LLM 做不到X”。
我的立场很明确:
• 纯LLM不是AGI,永远也不会是
• 领域越早超越纯LLM,我们就越早(无论好坏)达到AGI
• 纯LLM作为基础仍然存在很多问题(ChatGPT就说明了这一点)
我的立场很明确:
• 纯LLM不是AGI,永远也不会是
• 领域越早超越纯LLM,我们就越早(无论好坏)达到AGI
• 纯LLM作为基础仍然存在很多问题(ChatGPT就说明了这一点)
话说回来,当Gary Marcus 用免费版的ChatGPT(GPT-4o-mini,也可能用的是4o)测试生成美国各州统计表失败时,他可能没想到这会引发AI界最激烈的定义权争夺战。
GPT-o1生成的美国各州数据表格引发定义权争夺战
80,000 Hours 创始人Benjamin Todd 在看到Gary Marcus 对LLM 的大肆批判后,随手用20$/月的付费版GPT-o1 复现并实验成功了。
所以他才发文犀利指出:
Marcus 总在批判AI无法完成已被攻克的任务。
Marcus 总在批判AI无法完成已被攻克的任务。
这下子,Gary Marcus 的狡辩能力瞬间就激发出来了!
才有了他前面的辩称:
我是指LLM 不行,但o1 显然已经不是LLM 了啊兄弟!
我是指LLM 不行,但o1 显然已经不是LLM 了啊兄弟!
于是……
话题又成功跑偏了,争论迅速 转化、 升级、 升温成为了 LLM 的本质论战。
论战主题:
纯LLM 的定义是什么?o1 和r1 还是纯种LLM 吗?
纯LLM 的定义是什么?o1 和r1 还是纯种LLM 吗?
讨论的矛头直指当前最前沿的 OpenAI o1,同时自然也波及了当红的中国开源模型 DeepSeek R1:
当模型通过强化学习(RL)融入规则系统后,它们还是纯粹的大语言模型吗?
当模型通过强化学习(RL)融入规则系统后,它们还是纯粹的大语言模型吗?
辩论大战一触即发!
正方观点:升级即质变
Gary Marcus 在深度解析中指出:
DeepSeek 系统包含模型 + RL架构 + 符号规则奖励机制,其训练过程本质上是神经符号混合系统。就像说方格纸会乘法,只因外部系统能填写乘法表
DeepSeek 系统包含模型 + RL架构 + 符号规则奖励机制,其训练过程本质上是神经符号混合系统。就像说方格纸会乘法,只因外部系统能填写乘法表
他强调称,DeepSeek R1 的技术细节显示它的训练阶段采用 双轨制奖励系统:
准确性奖励:通过预定义规则验证数学问题答案格式
格式奖励:强制模型在<think>标签内呈现思考过程
准确性奖励:通过预定义规则验证数学问题答案格式
格式奖励:强制模型在<think>标签内呈现思考过程
ML工程师Manu Otel 指出:
R1和o1本质上仍是LLM。MoE架构只是神经元激活模式的拆分,所谓的“符号规则”不过股票t+o交易平台是损失函数里的格式约束
R1和o1本质上仍是LLM。MoE架构只是神经元激活模式的拆分,所谓的“符号规则”不过是损失函数里的格式约束
来自OpenAI 工程师Aidan McLaughlin 表示震惊:虽然我不能代表o1 说话(因为Sam Altman 不让),但r1 就是LLM 啊!
这就是个标准LLM,所谓规则系统不过是训练阶段的脚手架
这就是个标准LLM,所谓规则系统不过是训练阶段的脚手架
来自HuggingFace的GDP 更直白:
在Huggingface仓库里你只能找到权重文件和分词器——这就是LLM的本质证明
在Huggingface仓库里你只能找到权重文件和分词器——这就是LLM的本质证明
被炸出来的亚利桑那州立大学教授Subbarao Kambhampati 也只好表态:“ R1 在推理时还是纯LLM 的,但我当然不会说不是”:
R1 的训练本质是在LLM 权重中固化RL 构造的思维链。就像用强化学习给自己编写提示工程教材,然后背熟教材参加考试
R1 的训练本质是在LLM 权重中固化RL 构造的思维链。就像用强化学习给自己编写提示工程教材,然后背熟教材参加考试
呃……那是是,还是不是?
论教授的说话水平……
严谨派: 流畅的证明
当争论陷入胶着时,有网友给出了形象的类比思路:
这就像争论“用Word文档写诗的人还算人类吗?”
——因为Word提供了拼写检查
这就像争论“用Word文档写诗的人还算人类吗?”
——因为Word提供了拼写检查
而Michael Druggan 更进一步,贡献了 极为严谨的全场MVP 证明:
Gary Marcus说LLM不能做X →
R1做到了X →
Gary Marcus不可能错 →
所以R1不是LLM →
QEN(证明完成)
Gary Marcus说LLM不能做X →
R1做到了X →
Gary Marcus不可能错 →
所以R1不是LLM →
QEN(证明完成)
这逻辑,确实很严谨。
(好奇:以此为thining 思维链训练出来的r1 会是个什么样子……
智能的边界?
GPT-o1处理复杂查询的界面引发思考
这场争论的本质,是AI 的发展正在突破传统认知框架。
当:
训练过程引入符号规则
推理时延长token 生成窗口
系统集成外部验证工具
训练过程引入符号规则
推理时延长token 生成窗口
系统集成外部验证工具
我们面临的,或许不再是技术定义问题,更是 智能本质的重新认知。
就像量子物理中“ 观察者效应”,对AI 能力的定义本身正在改变其发展轨迹。
虽然,这场由Gary Marcus 而起的辩论确实也引发了一个值得思考的问题:
我们如何定义一个AI系统的“ 纯度”?
训练过程中使用的技术是否应该影响我们对最终模型的分类?
在快速发展的AI领域,如何保持对定义本身的清晰准确?
我们如何定义一个AI系统的“ 纯度”?
训练过程中使用的技术是否应该影响我们对最终模型的分类?
在快速发展的AI领域,如何保持对定义本身的清晰准确?
但,Peter Cowling 说出了我想说的:
marcus: 发表第99e7次“我警告过所有人...”的变体。
人们: 你明显错了。
marcus: 发表第99e7+1次“我警告过所有人...”的变体。
同时marcus: 我依然未被击败。
marcus: 发表第99e7次“我警告过所有人...”的变体。
人们: 你明显错了。
marcus: 发表第99e7+1次“我警告过所有人...”的变体。
同时marcus: 我依然未被击败。
不过,下面这一位网友才是我的最佳嘴替: 当我们看着Marcus 还在纠结着想打赢去年的仗,而AI 已经在解决明年的问题了。
发布于:北京市