你的位置：炒股网上配资_炒股杠杆平台_十大炒股杠杆平台查询 > 炒股网上配资 >

股票t+o交易平台 DeepSeek R1 还是LLM 吗？

发布日期：2025-02-17 23:24 点击次数：88

股票t+o交易平台 DeepSeek R1 还是LLM 吗？

又一场争论爆发了股票t+o交易平台。

这次争论的是：关于LLM 的本质。

而主角则是AI 领域著名的“ 永远正确先生” Gary Marcus，和80000Hours 的创始人Benjamin Todd。

关于Gary Marcus 是谁，DeepSeek 这样介绍的：

至于争论的导火索，则是一条看似普通的推文。

Benjamin Todd 发文指出Gary Marcus 总是在预测“ AI做不到某事”，而实际上AI早就能做到了。

展开剩余94%

相信你都会觉得过分的是， Todd 的文章标题叫做：《 Gary Marcus 表示，AI 无法做它已经可以做的事情》，并在文中列举展示了Marcus 从2020 年至今的几次“错误预测”：

Marcus的神预测

并且还得到大量网友声援：

看到这里，好像文章的标题《Gary Marcus 表示，AI 无法做它已经可以做的事情》虽然矛盾，但也挺合理？

你有没有好奇，看到文章的Marcus 会作何感想？

如你所料，自然是非常火大：

说我不对也就算了，还要嘲笑我小气不舍得包月？

试想，换你能你受得了？！！

必须给出强烈回应！！！

于是，暴怒的Marcus 立刻发文回应称自己从未说过“ AI 做不到X”，而是特指“ 纯LLM 做不到X”。

我的立场很明确:

• 纯LLM不是AGI，永远也不会是

• 领域越早超越纯LLM，我们就越早(无论好坏)达到AGI

• 纯LLM作为基础仍然存在很多问题(ChatGPT就说明了这一点)

我的立场很明确:

• 纯LLM不是AGI，永远也不会是

• 领域越早超越纯LLM，我们就越早(无论好坏)达到AGI

• 纯LLM作为基础仍然存在很多问题(ChatGPT就说明了这一点)

话说回来，当Gary Marcus 用免费版的ChatGPT（GPT-4o-mini，也可能用的是4o）测试生成美国各州统计表失败时，他可能没想到这会引发AI界最激烈的定义权争夺战。

GPT-o1生成的美国各州数据表格引发定义权争夺战

80,000 Hours 创始人Benjamin Todd 在看到Gary Marcus 对LLM 的大肆批判后，随手用20$/月的付费版GPT-o1 复现并实验成功了。

所以他才发文犀利指出：

Marcus 总在批判AI无法完成已被攻克的任务。

这下子，Gary Marcus 的狡辩能力瞬间就激发出来了！

才有了他前面的辩称：

我是指LLM 不行，但o1 显然已经不是LLM 了啊兄弟！

于是……

话题又成功跑偏了，争论迅速转化、升级、升温成为了 LLM 的本质论战。

论战主题：

纯LLM 的定义是什么？o1 和r1 还是纯种LLM 吗？

讨论的矛头直指当前最前沿的 OpenAI o1，同时自然也波及了当红的中国开源模型 DeepSeek R1：

当模型通过强化学习（RL）融入规则系统后，它们还是纯粹的大语言模型吗？

辩论大战一触即发！

正方观点：升级即质变

Gary Marcus 在深度解析中指出：

DeepSeek 系统包含模型 + RL架构 + 符号规则奖励机制，其训练过程本质上是神经符号混合系统。就像说方格纸会乘法，只因外部系统能填写乘法表

他强调称，DeepSeek R1 的技术细节显示它的训练阶段采用双轨制奖励系统：

准确性奖励：通过预定义规则验证数学问题答案格式

格式奖励：强制模型在<think>标签内呈现思考过程

准确性奖励：通过预定义规则验证数学问题答案格式

格式奖励：强制模型在<think>标签内呈现思考过程

ML工程师Manu Otel 指出：

R1和o1本质上仍是LLM。MoE架构只是神经元激活模式的拆分，所谓的“符号规则”不过股票t+o交易平台是损失函数里的格式约束

R1和o1本质上仍是LLM。MoE架构只是神经元激活模式的拆分，所谓的“符号规则”不过是损失函数里的格式约束

来自OpenAI 工程师Aidan McLaughlin 表示震惊：虽然我不能代表o1 说话（因为Sam Altman 不让），但r1 就是LLM 啊！

这就是个标准LLM，所谓规则系统不过是训练阶段的脚手架

来自HuggingFace的GDP 更直白：

在Huggingface仓库里你只能找到权重文件和分词器——这就是LLM的本质证明

被炸出来的亚利桑那州立大学教授Subbarao Kambhampati 也只好表态：“ R1 在推理时还是纯LLM 的，但我当然不会说不是”：

R1 的训练本质是在LLM 权重中固化RL 构造的思维链。就像用强化学习给自己编写提示工程教材，然后背熟教材参加考试

呃……那是是，还是不是？

论教授的说话水平……

严谨派：流畅的证明

当争论陷入胶着时，有网友给出了形象的类比思路：

这就像争论“用Word文档写诗的人还算人类吗?”

——因为Word提供了拼写检查

这就像争论“用Word文档写诗的人还算人类吗?”

——因为Word提供了拼写检查

而Michael Druggan 更进一步，贡献了极为严谨的全场MVP 证明：

Gary Marcus说LLM不能做X →

R1做到了X →

Gary Marcus不可能错 →

所以R1不是LLM →

QEN（证明完成）

Gary Marcus说LLM不能做X →

R1做到了X →

Gary Marcus不可能错 →

所以R1不是LLM →

QEN（证明完成）

这逻辑，确实很严谨。

(好奇：以此为thining 思维链训练出来的r1 会是个什么样子……

智能的边界？

GPT-o1处理复杂查询的界面引发思考

这场争论的本质，是AI 的发展正在突破传统认知框架。

当：

训练过程引入符号规则

推理时延长token 生成窗口

系统集成外部验证工具

训练过程引入符号规则

推理时延长token 生成窗口

系统集成外部验证工具

我们面临的，或许不再是技术定义问题，更是智能本质的重新认知。

就像量子物理中“ 观察者效应”，对AI 能力的定义本身正在改变其发展轨迹。

虽然，这场由Gary Marcus 而起的辩论确实也引发了一个值得思考的问题：

我们如何定义一个AI系统的“ 纯度”？

训练过程中使用的技术是否应该影响我们对最终模型的分类？

在快速发展的AI领域，如何保持对定义本身的清晰准确？

我们如何定义一个AI系统的“ 纯度”？

训练过程中使用的技术是否应该影响我们对最终模型的分类？

在快速发展的AI领域，如何保持对定义本身的清晰准确？

但，Peter Cowling 说出了我想说的:

marcus: 发表第99e7次“我警告过所有人...”的变体。

人们: 你明显错了。

marcus: 发表第99e7+1次“我警告过所有人...”的变体。

同时marcus: 我依然未被击败。

marcus: 发表第99e7次“我警告过所有人...”的变体。

人们: 你明显错了。

marcus: 发表第99e7+1次“我警告过所有人...”的变体。

同时marcus: 我依然未被击败。

不过，下面这一位网友才是我的最佳嘴替：当我们看着Marcus 还在纠结着想打赢去年的仗，而AI 已经在解决明年的问题了。

发布于：北京市

上一篇：中国股票配资网站 1月CPI同比涨幅扩大、PPI同比降幅与上月持平，专家：假期延长带动居民旅游、消费意愿增强

下一篇：品牌的股票配资公然阻碍执法！A股公司紫天科技遭严惩！或被强制退市

你的位置：炒股网上配资_炒股杠杆平台_十大炒股杠杆平台查询 > 炒股网上配资 >

热点资讯

相关资讯