腾讯研究院AI速递 20250311_科学探索

腾讯研究院AI速递 20250311

创始人

2025-03-11 06:12:38

生成式AI

一、 Manus AI 被「越狱」了？创始人紧急回应并官宣开源计划

1. Manus的"越狱"事件实为设计的一部分，每个用户都可直接访问沙盒，不存在安全漏洞；

2. Manus采用多agent协作架构，使用Claude和Qwen的微调模型，用户仅与执行agent通信，正在内部测试Claude 3.7；

3. Manus并未使用MCP协议，而是受《Executable Code Actions Elicit Better LLM Agents》研究启发，使agent能执行代码行为解决问题。

二、 MCP硅谷疯传！Anthropic协议解锁AI智能体「万能手」

1. MCP是一种标准化协议，使AI智能体能与外部工具和数据源无缝连接，一次搭建可替代传统方式下的上亿次配置；

2. MCP提供单一协议、动态发现和双向通信三大优势，使智能体能实时获取信息并触发操作，赋予"万能手"能力；

3. 已有多个MCP应用案例爆发，包括行程规划、智能代码编辑器和数据分析等场景，引发开发者快速构建商业化MCP服务器热潮。

三、微软官宣开源Magma多模态AI ，轻松拿捏网页、机器人

1. 微软开源多模态AI基础模型Magma，能在环境中理解多模态输入并与实际情况联系，已被CVPR接收，支持网页导航和机器人操作；

2. Magma创新性提出Set-of-Mark和Trace-of-Mark两大标注方法，前者为关键对象提供高层次"关注标记"，后者捕捉动作时序变化；

3. 模型由3900多万条样本预训练，采用ConvNeXt-XXL视觉网络和Llama-3-8B语言模型，团队大部分为华人，一作杨健伟为微软资深研究员。

四、稚晖君预告揭晓！智元发布首个通用具身基座模型GO-1

1. 智元机器人发布全新ViLLA架构和GO-1通用具身基座模型，解决机器人"看得懂做不来"的难题，可直接利用人类操作视频转化为可执行动作；

2. ViLLA架构通过Latent Action Tokens预测隐式动作，结合VLM和MoE专家模型，打通认知与动作两个维度，实现四级训练数据的综合利用；

3. GO-1基座模型在五种复杂度任务测试中成功率达78%，比现有最优模型提高32%，具备人类视频学习、小样本泛化、一脑多形和持续进化四大突破能力。

五、「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10

1. Unsloth优化DeepSeek同款GRPO训练算法：上下文长度增10倍，显存需求降90%，仅需5GB即可训练Qwen2.5；

2. 通过高效线性算法、智能梯度checkpoint和共享GPU内存三大创新，将20K上下文下Llama 3.1显存从510GB降至54GB；

3. 新版支持完整日志记录、自动补丁处理和FP8缓存，让16年发售的"古董级"GTX 1060也能训练推理模型。

六、字节开源MoE加速库COMET，细粒度计算-通信重叠

1. 字节开源MoE加速库COMET：细粒度计算-通信重叠技术使单层MoE提速1.96x，端到端模型加速1.71x，万GPU集群验证省下数百万GPU小时；

2. COMET即插即用、支持所有MoE并行策略，针对MoE通信瓶颈(占运行时间47%)提供根本解决方案；

3. 通过共享张量依赖解析和自适应工作负载分配，相比DeepSeek方案，COMET直接接入现有框架，获MLSys'25顶级评分。

七、草稿链代替思维链，推理token砍掉80%，显著提效？

1. Zoom团队提出"草稿链"代替思维链：通过生成简洁、信息密集的中间结果，推理token减少80%-90%，显著降低延迟和算力成本；

2. 方法简单易实现，无需修改模型或微调，只需更新提示词示例，保留可解释性且适用于闭源模型，能将月处理百万请求的成本从3800美元降至760美元；

3. 在算术、常识和符号推理任务上，草稿链准确率与思维链相当，甚至部分任务略有提升，但零样本设置下效果会显著下降，小模型上性能差距更大。

前沿科技

八、深圳机器人跑步惊呆歪果仁，与人类无异，网友：北马见

1. 深圳众擎机器人PM01展示超拟人跑步姿态，身高1.38米、重40公斤、全身24个自由度，起跑、跑步和停跑过程的关节协调几乎无"机器人味"，引发国外网友热议；

3. 下月(4月13日)北京将举办首例"人机共跑"半程马拉松，人类与人形机器人将同时起跑、同跑一条路线，开创全球先例。

报告观点

九、红杉对话OpenAI团队：期待Agent，强化学习将重回主流

1. OpenAI Deep Research团队认为AI Agent将成为2025年最具突破性技术，通过端到端强化学习让智能体更高效处理复杂搜索和推理任务，把数小时工作压缩至数分钟；

2. Deep Research不依赖预设流程图而采用端到端训练，灵活应对不可预测情况，广泛应用于市场分析、医疗研究和代码开发，将拓展至私人数据搜索；

3. 强化学习重回主流，因大型语言模型已成熟，现可针对明确奖励函数优化，让复杂决策系统更高效，这是构建强大AI Agent的关键方法。

十、 Github超2万星，OpenManus核心作者聊Agent发展趋势

1. OpenManus团队基于MetaGPT技术积累，仅用3小时复刻Manus，采用端到端规划和多智能体协作框架；

2. Agent规划能力既依赖模型本身提升，也需要外部结构辅助，如工具选择和memory管理是主要技术挑战；

3. Agent商业化未来将通过代码生成领域率先落地，同时使用小模型组合和优化token消耗以降低成本。

速递 Manus agent 机器人 DeepSeek 模型训练 Agents Magma 智能 Agent 草稿链思维链

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

上一篇：2025年开启未来新篇章报告-本高管指南可助您从容迎接持续创新的时代-RedHat红帽

下一篇：【南方都市报】严惩严重暴力犯罪！AI绘制动画读懂最高法报告亮点

腾讯研究院AI速递 20250311

相关内容

热门资讯