你的位置:炒股网上配资_炒股杠杆平台_十大炒股杠杆平台查询 > 炒股网上配资 >


股票t+o交易平台 DeepSeek R1 还是LLM 吗?

发布日期:2025-02-17 23:24    点击次数:86


股票t+o交易平台 DeepSeek R1 还是LLM 吗?

又一场争论爆发了股票t+o交易平台。

这次争论的是: 关于LLM 的本质。

而主角则是AI 领域著名的“ 永远正确先生” Gary Marcus,和80000Hours 的创始人Benjamin Todd。

关于Gary Marcus 是谁,DeepSeek 这样介绍的:

至于争论的导火索,则是一条看似普通的推文。

Benjamin Todd 发文指出Gary Marcus 总是在预测“ AI做不到某事”,而实际上AI早就能做到了。

展开剩余94%

相信你都会觉得过分的是, Todd 的文章标题叫做:《 Gary Marcus 表示,AI 无法做它已经可以做的事情》,并在文中列举展示了Marcus 从2020 年至今的几次“错误预测”:

Marcus的神预测

并且还得到大量网友声援:

看到这里,好像文章的标题 《Gary Marcus 表示,AI 无法做它已经可以做的事情》虽然矛盾,但也挺合理?

你有没有好奇, 看到文章的Marcus 会作何感想?

如你所料,自然是 非常火大:

说我不对也就算了, 还要嘲笑我小气不舍得包月?

说我不对也就算了, 还要嘲笑我小气不舍得包月?

试想,换你能你受得了?!!

必须给出强烈回应!!!

于是,暴怒的Marcus 立刻发文回应称自己从未说过“ AI 做不到X”,而是特指“ 纯LLM 做不到X”。

我的立场很明确:

• 纯LLM不是AGI,永远也不会是

• 领域越早超越纯LLM,我们就越早(无论好坏)达到AGI

• 纯LLM作为基础仍然存在很多问题(ChatGPT就说明了这一点)

我的立场很明确:

• 纯LLM不是AGI,永远也不会是

• 领域越早超越纯LLM,我们就越早(无论好坏)达到AGI

• 纯LLM作为基础仍然存在很多问题(ChatGPT就说明了这一点)

话说回来,当Gary Marcus 用免费版的ChatGPT(GPT-4o-mini,也可能用的是4o)测试生成美国各州统计表失败时,他可能没想到这会引发AI界最激烈的定义权争夺战。

GPT-o1生成的美国各州数据表格引发定义权争夺战

80,000 Hours 创始人Benjamin Todd 在看到Gary Marcus 对LLM 的大肆批判后,随手用20$/月的付费版GPT-o1 复现并实验成功了。

所以他才发文犀利指出:

Marcus 总在批判AI无法完成已被攻克的任务。

Marcus 总在批判AI无法完成已被攻克的任务。

这下子,Gary Marcus 的狡辩能力瞬间就激发出来了!

才有了他前面的辩称:

我是指LLM 不行,但o1 显然已经不是LLM 了啊兄弟!

我是指LLM 不行,但o1 显然已经不是LLM 了啊兄弟!

于是……

话题又成功跑偏了,争论迅速 转化、 升级、 升温成为了 LLM 的本质论战。

论战主题:

纯LLM 的定义是什么?o1 和r1 还是纯种LLM 吗?

纯LLM 的定义是什么?o1 和r1 还是纯种LLM 吗?

讨论的矛头直指当前最前沿的 OpenAI o1,同时自然也波及了当红的中国开源模型 DeepSeek R1:

当模型通过强化学习(RL)融入规则系统后,它们还是纯粹的大语言模型吗?

当模型通过强化学习(RL)融入规则系统后,它们还是纯粹的大语言模型吗?

辩论大战一触即发!

正方观点:升级即质变

Gary Marcus 在深度解析中指出:

DeepSeek 系统包含模型 + RL架构 + 符号规则奖励机制,其训练过程本质上是神经符号混合系统。就像说方格纸会乘法,只因外部系统能填写乘法表

DeepSeek 系统包含模型 + RL架构 + 符号规则奖励机制,其训练过程本质上是神经符号混合系统。就像说方格纸会乘法,只因外部系统能填写乘法表

他强调称,DeepSeek R1 的技术细节显示它的训练阶段采用 双轨制奖励系统:

准确性奖励:通过预定义规则验证数学问题答案格式

格式奖励:强制模型在<think>标签内呈现思考过程

准确性奖励:通过预定义规则验证数学问题答案格式

格式奖励:强制模型在<think>标签内呈现思考过程

ML工程师Manu Otel 指出:

R1和o1本质上仍是LLM。MoE架构只是神经元激活模式的拆分,所谓的“符号规则”不过股票t+o交易平台是损失函数里的格式约束

R1和o1本质上仍是LLM。MoE架构只是神经元激活模式的拆分,所谓的“符号规则”不过是损失函数里的格式约束

来自OpenAI 工程师Aidan McLaughlin 表示震惊:虽然我不能代表o1 说话(因为Sam Altman 不让),但r1 就是LLM 啊!

这就是个标准LLM,所谓规则系统不过是训练阶段的脚手架

这就是个标准LLM,所谓规则系统不过是训练阶段的脚手架

来自HuggingFace的GDP 更直白:

在Huggingface仓库里你只能找到权重文件和分词器——这就是LLM的本质证明

在Huggingface仓库里你只能找到权重文件和分词器——这就是LLM的本质证明

被炸出来的亚利桑那州立大学教授Subbarao Kambhampati 也只好表态:“ R1 在推理时还是纯LLM 的,但我当然不会说不是”:

R1 的训练本质是在LLM 权重中固化RL 构造的思维链。就像用强化学习给自己编写提示工程教材,然后背熟教材参加考试

R1 的训练本质是在LLM 权重中固化RL 构造的思维链。就像用强化学习给自己编写提示工程教材,然后背熟教材参加考试

呃……那是是,还是不是?

论教授的说话水平……

严谨派: 流畅的证明

当争论陷入胶着时,有网友给出了形象的类比思路:

这就像争论“用Word文档写诗的人还算人类吗?”

——因为Word提供了拼写检查

这就像争论“用Word文档写诗的人还算人类吗?”

——因为Word提供了拼写检查

而Michael Druggan 更进一步,贡献了 极为严谨的全场MVP 证明:

Gary Marcus说LLM不能做X →

R1做到了X →

Gary Marcus不可能错 →

所以R1不是LLM →

QEN(证明完成)

Gary Marcus说LLM不能做X →

R1做到了X →

Gary Marcus不可能错 →

所以R1不是LLM →

QEN(证明完成)

这逻辑,确实很严谨。

(好奇:以此为thining 思维链训练出来的r1 会是个什么样子……

智能的边界?

GPT-o1处理复杂查询的界面引发思考

这场争论的本质,是AI 的发展正在突破传统认知框架。

当:

训练过程引入符号规则

推理时延长token 生成窗口

系统集成外部验证工具

训练过程引入符号规则

推理时延长token 生成窗口

系统集成外部验证工具

我们面临的,或许不再是技术定义问题,更是 智能本质的重新认知。

就像量子物理中“ 观察者效应”,对AI 能力的定义本身正在改变其发展轨迹。

虽然,这场由Gary Marcus 而起的辩论确实也引发了一个值得思考的问题:

我们如何定义一个AI系统的“ 纯度”?

训练过程中使用的技术是否应该影响我们对最终模型的分类?

在快速发展的AI领域,如何保持对定义本身的清晰准确?

我们如何定义一个AI系统的“ 纯度”?

训练过程中使用的技术是否应该影响我们对最终模型的分类?

在快速发展的AI领域,如何保持对定义本身的清晰准确?

但,Peter Cowling 说出了我想说的:

marcus: 发表第99e7次“我警告过所有人...”的变体。

人们: 你明显错了。

marcus: 发表第99e7+1次“我警告过所有人...”的变体。

同时marcus: 我依然未被击败。

marcus: 发表第99e7次“我警告过所有人...”的变体。

人们: 你明显错了。

marcus: 发表第99e7+1次“我警告过所有人...”的变体。

同时marcus: 我依然未被击败。

不过,下面这一位网友才是我的最佳嘴替: 当我们看着Marcus 还在纠结着想打赢去年的仗,而AI 已经在解决明年的问题了。

发布于:北京市

    热点资讯

    相关资讯