超过谷歌搜索,成本猛降80%!阿里开源创新大模型搜索引擎
创始人
2025-05-09 09:18:10

昨天,阿里巴巴开源了一种创新大模型搜索引擎——ZeroSearch。

ZeroSearch是一种无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。主要利用了大模型在大规模预训练过程中积累的丰富知识,将其转化为一个检索模块,能够根据搜索查询生成相关内容。同时,还可以动态控制生成内容的质量,这是传统搜索引擎所不具备的特殊功能。

研究人员在NQ、TriviaQA、PopQA、HotpotQA等7大问答数据集上进行了综合评测。结果显示,一个70亿参数的监督微调模型使用ZeroSearch后,其搜索能力达到了33.06;140亿参数的模型则达到了33.97,超过了谷歌搜索的32.47。

在成本方面,研究人员通过SerpAPI使用谷歌搜索进行约64,000次搜索查询的训练,成本约为586.70美元;而在四个A100GPU上使用140亿参数的大模型进行模拟时,成本仅为70.80美元,成本降低了80%以上。

目前,为了解决大模型幻觉以及扩大外部知识范围,检索增强生成(RAG)已成为标配。不过,早期的RAG主要采用基于提示的策略,通过引导大模型进行查询生成、查询分解和多轮信息检索来整合外部知识,但这些方法对提示要求较高,且对模型的推理能力依赖较大。

还有研究尝试通过监督微调、蒙特卡洛树搜索等方法来增强搜索能力,虽然取得了一定成果,但算力消耗很大,在实际部署中面临很多难题。

随着DeepSeek-R1、o1等模型的出现,强化学习成为了一项改变模型逻辑推理能力的关键技术。这些模型完全依赖于奖励驱动的学习,而无需明确的逐步监督。

因此,有不少研究将强化学习应用在大模型搜索中。例如,Search-R1通过强化学习自主生成多个搜索查询,而ReSearch则通过强化学习教授模型通过搜索进行推理,无需对中间推理步骤进行监督。但这些方法需要与谷歌等商业搜索引擎搭配使用才能达到最佳效果,成本方面非常高。

ZeroSearch则通过强化学习激励大模型的搜索能力,同时避免了与真实搜索引擎交互带来的高昂成本和不可控性。

ZeroSearch通过轻量级监督微调将大模型转化为一个检索模块。这一过程利用了大模型在大规模预训练中积累的丰富知识,使其能够根据给定的查询生成相关或噪声文档。通过调整提示中的关键词,模型可以灵活地控制生成文档的质量,从而为后续的训练提供多样化的检索场景。

这种能力是通过收集与真实搜索引擎交互的轨迹数据,并对这些数据进行标注和微调来实现的。主要是让大模型与真实搜索引擎展开多轮交互,直至得出最终答案。

在此过程中,详细记录下所有交互轨迹,这些轨迹涵盖了从模型发起查询,到搜索引擎返回文档,以及模型据此生成最终答案的全过程。接着,对这些交互轨迹进行细致标注,将能产生正确答案的交互轨迹标记为正样本,意味着其中检索到的文档发挥了积极作用;而导致错误答案的交互轨迹则归为负样本,表明对应的检索文档属于干扰信息。

从正样本和负样本交互轨迹中精准提取查询-文档对,以此为基础对大模型实施轻量级监督微调。微调时,研究人员巧妙调整提示中的少量词汇,例如,加入“有用信息”“噪声信息”等,引导大模型学习生成不同质量的文档。同时,将输入问题及其对应的答案融入提示内容,拓宽大模型的知识边界。

ZeroSearch还通过引入“课程学习机制”,用于在训练过程中逐步调整生成文档的质量。其核心思想是,随着训练的进行,逐渐增加任务的难度,使模型从简单的检索场景开始,逐步适应更具挑战性的环境。

通过一个概率函数动态调整生成噪声文档的可能性。在训练初期,模型主要接触高质量的文档,以便快速学习基本的输出格式和任务要求。随着训练的深入,模型逐渐暴露于更多噪声文档,这迫使模型不断提升其推理能力和鲁棒性,以应对更具挑战性的检索任务。

在强化学习的框架下,ZeroSearch采用了多种算法来优化模型的搜索策略。这些算法包括近端策略优化、组相对策略优化等,通过最大化策略模型的期望奖励来训练模型,同时考虑参考模型和奖励函数。

奖励函数的设计专注于答案的准确性,采用基于F1分数的奖励机制,以平衡精确度和召回率。此外,为了提高训练的稳定性,ZeroSearch还引入了损失掩蔽机制,确保梯度仅针对模型自身的输出进行计算,从而避免了由于外部生成的文档标记引入的噪声。

ZeroSearch的训练模板是一个多轮交互模板,明确区分了模型的推理、搜索和回答阶段。在推理阶段,模型在其内部进行思考,并在...标签内阐述其推理过程。如果模型认为需要额外的信息,它会在...标签内发出搜索查询。检索到的文档由模拟搜索引擎生成,并在...标签内返回给模型。

最后,大模型在...标签内提供最终答案。这种结构化的模板不仅提高了模型的透明度,还增强了其在实际应用中的可靠性。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

上海亚商ABC吹嘘荐股实力,投... 亚.商投顾服务费怎么退?答案是可以退,能退!保留相关证据即可追回! 那些疯狂拉群洗脑的营销...
深圳国.诚投顾上海分公司欺骗消... 深圳国.诚投顾上海分公司欺骗消费者,可以退费!有法可依!误导性宣传欺诱导股民缴费! 国诚荐股服务没有...
上海凯石26800实战班服务费... 上海凯石证券服务费如何才能退?退款流程公布!投顾被亏骗真相曝光!简单退款流程! 困扰股民...
广东博.众智能投顾荐股服务费打... 广东博.众智能投顾荐股服务费打水漂,退费流程有法可依!误导性宣传欺骗股民,被骗交费可以退款!证券投资...
金证金点股2999还能相信吗?... 金证投顾正规吗?退费流程公布!误导性宣传欺骗股友服务费!被骗交费已退 股市行情持续低迷,...
愤怒!爱.赢投顾退费流程详解亏... 愤怒!爱.赢投顾退费流程详解亏损内幕大曝光!误导性宣传欺骗股民可以退!高收益利诱被骗交费已退款!这些...
德迅证券荐股没实力,坑害投资者... 那些疯狂拉群洗脑的营销模式,浮夸的收益数据,还有一个个不靠谱的“证券专家”,处理投诉和恶评的风控团队...
杭州顶点财经公司怎么样?曝光收... 顶点财经服务费可以退款吗?可以退!有法可依维权可退!退款流程详解及注意事项公布!顶点财经服...
广东博.众投资大阳智投的投顾服... 广东博.众投资大阳智投的投顾服务,被误导交费后亏损皆可退费!证券投资咨询行业的本质在于为投资者提供公...
警惕,在线曝光,在股掌柜交了服... 股掌柜证券财富赢家亏损内幕大曝光!投顾服务不靠谱,背后真相曝光已退费。荐股收费常见陷阱公开。
九方投顾余洋靠谱吗?虚假宣传害... 九方投顾余洋靠谱吗?虚假宣传害股民!服务费可退回! 证券投资咨询行业的本质在于为投资者提供公平、客观...
上海凯石会员费怎么退?虚假盈利... 上海凯石证券服务费如何才能退?退款流程公布!投顾被亏骗真相曝光!简单退款流程! 困扰股民...
杭州顶点财经公司怎么样?跟着操... 顶点财经服务费可以退款吗?可以退!有法可依维权可退!退款流程详解及注意事项公布!顶点财经服...
九方智投服务费能退吗怎么退?缴... 九方智投服务费能退吗怎么退?缴费前画大饼,退费为何百般赖?超详细退费攻略来袭!退款流程公布 证券投资...
港澳资讯荐股亏损惨重,服务费该... 在港澳资讯交的服务费怎么退?答案是:可以能退费!有法可依!申请退款流程公布!海南港澳资讯老...
在上海海能投顾交了服务费荐股被... 在上海海能投顾交了服务费荐股被骗,套路揭秘,退费经验总结! 在监管的灰色边缘,众多投资顾问依然疯狂揽...
爱赢投顾交了48000是可以退... 爱赢投顾正规吗可靠吗?荐股只亏不赚!想退费看这里!核心答案:符合条件可全额退回! 若你在湖...
湖南金.证投顾订制老师骗取会员... 湖南金.证投顾订制老师骗取会员费,投顾"名师”带你频繁买卖,亏了九万服务费,教你合规维权退! 证券投...
杭州顶点财经公司怎么样?曝光收... 顶点财经服务费可以退款吗?可以退!有法可依维权可退!退款流程详解及注意事项公布!顶点财经服...
杭州顶点摇钱树9800没效果,... 顶点财经服务费可以退款吗?可以退!有法可依维权可退!退款流程详解及注意事项公布!顶点财经服...
在顶点投顾交的服务费可以退吗?... 在顶点投顾交的服务费可以退吗?误导性宣传坑惨股友真相曝光,被骗服务费已退 投资本是一场自我的修行,只...
上海凯石会员费怎么退?警惕荐股... 上海凯石证券服务费如何才能退?退款流程公布!投顾被亏骗真相曝光!简单退款流程! 困扰股民...
指南针VIP投顾服务垃圾的,背... 指南针VIP投顾服务垃圾的,背后圈套细思极恐!股友愤怒不已! 北京指南针正规吗?北京指南针靠谱吗?北...
和众汇富服务费怎么退?误导性宣... 和众汇富投顾交了服务费可以退吗?揭秘荐股内幕!亏损惨重背后真相曝光!不少投资者在与和众汇富...
杭州高能26800能退回吗?警... 杭州高能云VIP投顾服务垃圾的,黑幕曝光!为骗服务费不择手段!维权已追回! 在跟高能智投有...