生成式AI成功关键:数据质量决定一切
创始人
2026-01-15 19:18:25

生成式AI正在成为几乎所有行业的颠覆性力量,但仅仅使用最好的AI模型和工具还不够。每个人都在使用相同的工具,而真正创造竞争优势的是能够训练和微调自己的模型,或为它们提供独特的上下文,这就需要数据。

您公司的庞大代码库、文档和变更日志?这些是您编程智能体的数据。您的历史提案和合同库?这些是您写作助手的数据。您的客户数据库和支持工单?这些是您客服聊天机器人的数据。

但是,仅仅因为所有这些数据存在,并不意味着它们是好的数据。

"将模型指向任何可用数据都非常容易," Unisys云、应用和基础设施解决方案高级副总裁兼总经理Manju Naglapur说。"在过去三年中,我们一遍又一遍地看到这种错误。垃圾进、垃圾出的古老格言仍然成立。"

根据波士顿咨询公司9月发布的一项调查,在1250名AI高级决策者中,68%的人表示缺乏高质量数据是采用AI时的关键挑战。其他最新研究也证实了这一点。在思科10月对超过8000名AI领导者的调查中,只有35%的公司拥有干净、集中且具有实时集成的数据供智能体使用。根据IDC的预测,到2027年,不优先考虑高质量、AI就绪数据的公司将在扩展生成式AI和智能体解决方案时遇到困难,导致15%的生产力损失。

语义层面的混乱

将所有数据混合在一起使用的另一个问题是语义层会变得混乱。当数据来自多个来源时,同一类型的信息可能以多种方式定义和结构化。随着新项目或新收购导致数据源数量激增,这个挑战会加剧。即使只是跟踪客户——最关键的数据类型——基本数据问题对许多公司来说都很困难。

邓白氏公司去年报告称,超过一半的受访组织对其在AI中利用的数据的可信度和质量表示担忧。例如,在金融服务行业,52%的公司表示AI项目因数据质量差而失败。根据12月发布的一项涵盖2000多名行业专业人士的调查,44%的公司表示数据质量是他们对2026年最大的担忧,仅次于网络安全。

云咨询公司Lemongrass的首席技术官Eamonn O'Neill说,拥有多个相互冲突的数据标准对每个人来说都是挑战。

"每一个不匹配都是风险,"他说。"但人类会想出解决办法。"

他补充说,如果您了解挑战所在,并投入时间和精力来解决它,AI也可以配置为做类似的事情。即使数据是干净的,公司仍应进行语义映射练习。如果数据不完美,就需要时间来整理。

"选择一个数据量小的用例并做好,"他说。"这是可行的。然后你再扩展。这就是成功采用的样子。"

未管理和非结构化数据的问题

O'Neill说,公司在将AI连接到公司信息时犯的另一个错误是让AI指向非结构化数据源。是的,大语言模型非常擅长读取非结构化数据并理解文本和图像。问题是并非所有文档都值得AI关注。

例如,文档可能已过时。或者它们可能是尚未编辑的文档早期版本,或者其中有错误。

"人们经常看到这种情况,"他说。"我们将您的OneDrive或文件存储连接到聊天机器人,突然间它无法区分'版本2'和'版本2最终版'。"

他补充说,人类用户很难维护适当的版本控制。"微软可以为您处理不同版本,但人们仍然会'另存为',最终您会有大量非结构化数据," O'Neill说。

安全控制的缺失

当CIO通常考虑与AI系统相关的安全性时,他们可能会考虑模型的防护栏,或围绕训练数据和用于RAG嵌入的数据的保护。但随着基于聊天机器人的AI发展为智能体AI,安全问题变得更加复杂。

例如,假设有一个员工薪资数据库。如果员工对自己的薪资有疑问并询问嵌入在AI门户中的AI聊天机器人,RAG嵌入方法是使用传统代码仅从数据库中收集相关数据,将其嵌入到提示中,然后将查询发送给AI。AI只能看到它被允许看到的信息,传统的确定性软件堆栈处理保持其余员工数据安全的问题。

但当系统发展为智能体系统时,AI智能体可以通过MCP服务器自主查询数据库,由于它们需要能够回答任何员工的问题,因此需要访问所有员工数据,防止数据落入错误之手成为一项重大任务。

根据思科的调查,只有27%的公司对AI系统有动态和详细的访问控制,不到一半的公司对保护敏感数据或防止未经授权的访问有信心。

O'Neill说,如果所有数据都被收集到数据湖中,情况会变得更加复杂。

"如果您放入了来自许多不同来源的数据,每个单独的来源都可能有自己的安全模型,"他说。"当您将所有这些都放入块存储中时,您会失去控制的粒度。"

试图在事后添加安全层可能很困难。他说,解决方案是直接访问原始数据源,完全跳过数据湖。

"这是为了永远保存历史记录,因为存储如此便宜,机器学习可以看到随时间变化的模式和趋势,"他说。"此外,如果您混合来自不同来源的数据,可以发现跨学科模式。"

数字化转型咨询公司Sutherland Global的CIO兼CDO Doug Gilbert说,一般来说,当涉及AI智能体而非人类时,数据访问会发生巨大变化。

"对于人类,有大量围绕人类的安全性,"他说。"例如,大多数用户界面都是这样编写的:如果是仅限数字的字段,您不能在其中输入字母。但一旦您引入AI,这一切都消失了。这是您系统的原始后门。"

速度陷阱

但Gilbert看到CIO犯的头号错误是他们行动过快。"这就是大多数项目失败的原因,"他说。"对速度的竞争如此激烈。"

他补充说,CIO经常将数据问题视为减速,但所有这些事情都是巨大的风险。"很多做AI项目的人会被审计,他们将不得不停下来重新做一切,"他说。

因此,正确处理数据并不是减速。"当您建立适当的基础设施时,您就会在创新中快速前进,通过审计,并具有合规性,"他说。

另一个可能感觉像不必要的时间浪费的领域是测试。快速行动、破坏事物,然后在部署后稍后修复它们并不总是好策略。

"以光速移动的错误成本是什么?"他问。"我总是先进行测试。令人惊讶的是,我们看到有多少产品在没有任何测试的情况下推向市场。"

利用AI修复数据

缺乏质量数据的问题可能感觉像是一个绝望的问题,随着AI用例的扩展只会变得更糟。

在AvePoint基于775名全球商业领袖调查的10月报告中,81%的组织已经因数据管理或数据安全问题而延迟部署AI助手,平均延迟六个月。

与此同时,不仅AI项目的数量继续增长,数据量也在增长。近52%的受访者还表示他们的公司正在管理超过500PB的数据,高于一年前的41%。

但Unisys的Naglapur说,由于AI的存在,获得客户360度视图以及清理和协调其他数据源将变得更容易。

"这是悖论,"他说。"AI将帮助解决一切。如果您考虑需要三年的数字化转型,现在您可以在12到18个月内用AI完成。"工具正越来越接近现实,它们将加速变革的步伐,他说。

Q&A

Q1:为什么说数据质量是生成式AI成功的关键?

A:因为虽然大家都在使用相同的AI模型和工具,但真正创造竞争优势的是能够训练和微调自己的模型,或为模型提供独特的上下文,这都需要高质量的数据。垃圾进、垃圾出的古老格言在AI时代仍然成立。

Q2:企业在AI数据使用中常犯哪些错误?

A:主要错误包括:将AI指向任何可用数据而不考虑质量;让数据的语义层变得混乱;将AI连接到未管理的非结构化数据源;在数据安全方面缺乏精细控制;以及行动过快而忽视数据基础设施建设。

Q3:如何解决AI项目中的数据质量问题?

A:建议采用循序渐进的方法:从小规模用例开始并做好,然后再扩展;进行语义映射练习;建立适当的版本控制;实施动态和详细的访问控制;优先进行充分测试。同时,AI本身也可以帮助清理和协调数据源。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

上海汇正财经虚假宣传,欺骗股民... 上海汇正财经虚假宣传,欺骗股民缴费炒股导致亏损,现可依法退费!投资有风险,投资需谨慎!针对网上素未谋...
大决策交了7万8怎么退钱?骗局... 大决策股市赢家怎么退费?能退款方法分享!误导性宣传高收益诱导升级被骗一招退费投资有风险,投资需谨慎!...
汇正财经宣传天花乱坠,实际操作... 汇正财经宣传天花乱坠,实际操作拉胯,服务费可成功退回!最近,不少股民在社交平台吐槽自己被投顾公司坑惨...
大决策交了7万8怎么退钱?依法... 大决策股市赢家怎么退费?能退款方法分享!误导性宣传高收益诱导升级被骗一招退费投资有风险,投资需谨慎!...
海能投顾推荐的股票可靠吗服务费...   海能证券投资顾问怎么样?虚假宣传欺诈消费者荐高位股!股民交费炒股真的很后悔!服务费可以退!  投...
大决策交了7万8怎么退钱?退费... 大决策股市赢家怎么退费?能退款方法分享!误导性宣传高收益诱导升级被骗一招退费投资有风险,投资需谨慎!...
大决策交了7万8怎么退钱?合法... 大决策股市赢家怎么退费?能退款方法分享!误导性宣传高收益诱导升级被骗一招退费投资有风险,投资需谨慎!...
和讯投顾荐股服务不靠谱,亏损之... 和讯投顾荐股服务不靠谱,亏损之后想退费,流程步骤全公开和讯信息科技有限公司怎么样?其荐股服务可信吗?...
开源证券给予武汉蓝电"... 每经AI快讯,开源证券3月25日发布研报称,给予武汉蓝电(920779.SH)"买入"评级。评级理由...
和讯投顾误导交费有内幕,服务承... 和讯投顾误导交费有内幕,服务承诺成空谈,退费方法真实有效和讯信息科技有限公司怎么样?其荐股服务可信吗...
大决策交了7万8怎么退钱?可以... 大决策股市赢家怎么退费?能退款方法分享!误导性宣传高收益诱导升级被骗一招退费投资有风险,投资需谨慎!...
和讯信息虚假、误导性营销宣传,... 和讯信息虚假、误导性营销宣传,诱导股民交服务费,欺骗消费者!
和讯投顾交费荐股总亏损,宣传全... 和讯投顾交费荐股总亏损,宣传全是假象,教你合理追回费用!和讯信息科技有限公司怎么样?其荐股服务可信吗...
大决策交了7万8怎么退钱?想要... 大决策股市赢家怎么退费?能退款方法分享!误导性宣传高收益诱导升级被骗一招退费投资有风险,投资需谨慎!...
和讯投顾夸大实力诱导费,服务效... 和讯投顾夸大实力诱导费,服务效果差太多,成功退费经验分享和讯信息科技有限公司怎么样?其荐股服务可信吗...
大决策交了7万8怎么退钱?返还... 大决策股市赢家怎么退费?能退款方法分享!误导性宣传高收益诱导升级被骗一招退费投资有风险,投资需谨慎!...
和讯投顾荐股公司套路深,交费之... 和讯投顾荐股公司套路深,交费之后大变样,退费流程亲测有效!和讯信息科技有限公司怎么样?其荐股服务可信...
手术视频大模型“术影”开源发布... 3月24日,中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)在香港科学园深圳分园发布“术...
大决策交了7万8怎么退钱?被投... 大决策股市赢家怎么退费?能退款方法分享!误导性宣传高收益诱导升级被骗一招退费投资有风险,投资需谨慎!...
和众汇富科技推荐的股票真的可靠... 和众汇富科技推荐的股票真的可靠吗? 答案是:可以退费!诱导交费可退!5分种了解退费流程公布投资有风险...
天相股多多软件是正规的吗投顾服... 北京天相财富收取股民服务费没效果会员费能退回来?北京天相财富并不靠谱,在北京天相财富业务员的诱导下购...
大决策交了7万8怎么退钱?已追... 大决策股市赢家怎么退费?能退款方法分享!误导性宣传高收益诱导升级被骗一招退费投资有风险,投资需谨慎!...
大决策交了7万8怎么退钱?符合... 大决策股市赢家怎么退费?能退款方法分享!误导性宣传高收益诱导升级被骗一招退费投资有风险,投资需谨慎!...
和信证券误导宣传坑股民,交费容... 和信证券误导宣传坑股民,交费容易退费难,正确方法轻松挽回和信证券服务费是可以退的。如果认为和信证券存...
上海工美有色APP商品订购亏损... 上海工美有色APP商品订购亏损了能退款吗?被诈.骗的钱是可以退! 退费退款流程公布工美有色APP投资...