AI的终极形态：是万能神谕，还是无数个“专用智能”？_科学探索

AI的终极形态：是万能神谕，还是无数个“专用智能”？

创始人

2025-10-23 17:18:31

0次

曾几何时，我们与AI的交流，仿佛隔着一湾湖水——它在水外，我们在水里，通过文字进行着一场场问答。但不知你是否察觉，那层界面正在悄然消失。AI不再只是对话框后的智慧大脑，它开始伸出手，为我们点击按钮、撰写邮件、甚至调试代码。在2025年10月的这个节点，从OpenAI、谷歌到DeepSeek、豆包，一系列新动向似乎都在共同诉说一个主题：那个只会聊天的AI，正努力成为我们数字生活中更具能动性的伙伴。

智能体的“分身术”：向内深耕，向外拓界

AI智能体的集体亮相，是本月最引人注目的趋势。然后，当我们仔细观察，会发现不同的玩家选择了截然不同的进化路径，这恰恰反映了他们对未来AI形态的不同理解。

大洋彼岸的另一端，谷歌Gemini展现了“通用操作者”的野心。10月8日凌晨，谷歌DeepMind重磅发布了基于Gemini 2.5的计算机使用模型Gemini 2.5 Computer，将AI智能体的战场聚焦于浏览器交互这一核心场景。这款模型凭借视觉理解与推理能力支持13种浏览器操作，能够实时“看到”用户的电脑屏幕，并且能像人类一样进行点击、输入、滚动等操作。无论是整理表格数据还是在线预定行程，用户只需要发出语音指令，Gemini便能自主轻松应对。

“这相当于给AI装上了‘眼睛’和‘双手’。”AI交互设计师陈曦在接受相关采访时表示，“过去AI处理网页任务需要提前定义规则，而Gemini 2.5能自主理解视觉元素的语义，比如区分‘提交’和‘重置’按钮，这种泛化能力是关键突破。”

这也将表明，谷歌此次发布的Gemini 2.5直接向Open AI的ChatGPT智能体和Anthropic的Claude计算机使用版本发起冲击。

当国外的AI志在成为“全能助理”时，国内的市场又在发生什么？答案在对于具体场景的深度挖掘。就在谷歌发布新功能的同期，字节跳动的豆包选择了“垂直场景专家”的路径。10月21日，字节跳动旗下豆包编程完成版本升级，正式引入Agent能力并同步推出创作与问答两种交互模式，面向开发者提供自动化编程辅助服务。该能力不仅能理解复杂的代码逻辑，还能自动规划步骤，调用代码解释器、终端命令行等工具，一键完成代码修复、运行和测试。在编程这个垂直领域，豆包正在努力成为一位不可或缺的专家助理。

从通用的电脑操作到专业的编程辅助，AI智能体正根据不同的场景需求，分化出多元化的“人格”与能力。然而，能力的分化仅仅是故事的开始，更深层次的竞争在于对这些能力载体的争夺——即AI究竟应该存在于哪里？

奔跑的方向：占据入口，还是铸就基石？

当AI成为“执行者”，竞争便不再局限于模型本身，而是上升到了对整个生态位的争夺。这场争夺战在产业链的上下游同时打响，形成了泾渭分明的两种商业模式。

在“应用层”，我们目睹了一场“平台梦”的上演。Open AI的ChatGPT Atlas是这一战略的典范。它不再甘于只做一个网站或APP，而是直接发布了一款AI浏览器。10月22日消息，也就是今天，Open AI推出了一款AI驱动的网络浏览器，这款名为ChatGPT Atlas的工具今日正式发布。根据Open AI的说法，ChatGPT从今天开始在苹果macOS平台“全球”可用，而Windows、IOS和Android版本的访问权限则“即将到来”。

就在Open AI试图“向上”包揽用户入口的同时，另一股力量则选择“向下”深耕，为整个行业提供基础设施。在“工具层”，DeepSeek则扮演了“技术赋能者”的角色。近日，DeepSeek在GitHub上开源了其最新研究成果——DeepSeek-OCR模型。该款模型以其创新的“视觉记忆压缩”技术，精准地命中了长文本、长视频处理中的效率与成本痛点。其核心创新在于构建“视觉token”体系，通过多分辨率压缩技术，将文档信息转化为不同精度的图像编码：简单PPT仅需64个视觉token即可完整呈现，而复杂学术图表则自动切换至400个token的精细模式。实验数据显示，在文档理解任务中，该模型使用100个视觉token的表现已超越256个文本token的GOT-OCR 2.0，压缩20倍时仍能保持60%准确率。这项技术革新不仅引发了海外开发者热议，更被业界评价为“重新定义AI记忆机制”的重要尝试。

DeepSeek不像Open AI那样直接面向消费者做产品，而是通过向开发者和企业提供这类强大的底层技术工具，来繁荣整个应用生态，如同为AI“淘金热”提供了最锋利的“铲子”。

这种在生态位上的分化，自然而然地引出了一个根本性的战略抉择：面对即将到来的智能体时代，什么样的技术开放策略才能赢得未来？

源代码之外：开放的花园与封闭的城堡

上述不同的生态位选择，自然也决定了它们截然不同的开放策略，这构成了竞争的第三个维度，也是一场关乎AI技术将以何种方式普及的哲学辩论。

DeepSeek坚定走在“开源”的道路上。其发布的OCR模型的代码与权重均已开放，这不仅能迅速吸引全球开发者基于其技术进行创新，也旨在通过技术贡献来确立行业的事实标准，从底层推动整个产业的进步。俗话说，众人拾柴火焰高，这种策略的核心就在相信于此。通过构建繁荣的开发阿哲生态来间接确立影响力。

与此形成鲜明对比的是，Open AI与谷歌则继续其“闭源整合”策略。它们将先进的智能体能力牢牢封装在自己的产品中。这种策略旨在构建从模型、产品到用户的完整闭环，通过提供最佳体验来保持其核心竞争力和商业护城河。它们赌的是，无缝集成的用户体验，将比开放的技术本身更具吸引力。

2025年10月的AI“赛马场”，已不再是单一维度的竞速，而是清晰地勾勒出一幅立体竞争的图景。在这里，我们看到了“通用智能”与“垂直深度”的路径分化，目睹了“平台入口”与底层工具的生态位争夺，更见证了“开源共享”与“闭源整合”的战略博弈。未来的胜负手，不再是单一的模型性能评分，而是“技术深度(如DeepSeek的创新算法)”、“生态广度”(如Open AI的平台野心)与“产业理解力”(如豆包的场景深耕)的三重较量。

AI的进化，或许将告别对“宏大叙事”的迷恋，转而投身于一场“细微的革命”。它的终极形态，不是唯一的解答，而是由无数个“专用”的智能，在具体细微的角落，完成它们

各自的使命。当“执行”取代“对话”成为核心，我们与技术的关系，便从提问与解答，走向了无声的共生与共同的进化。

能力视觉技术形态终极 OpenAI 专用 Gemini token 智能智能体谷歌豆包 Open

上一篇：聚焦AI赋能，启航智慧服务新征程

下一篇：荣耀发布AI 生态战略加速千亿级产业集群落地

AI的终极形态：是万能神谕，还是无数个“专用智能”？

相关内容

热门资讯