生成式AI成功关键:数据质量决定一切
创始人
2026-01-15 19:18:25

生成式AI正在成为几乎所有行业的颠覆性力量,但仅仅使用最好的AI模型和工具还不够。每个人都在使用相同的工具,而真正创造竞争优势的是能够训练和微调自己的模型,或为它们提供独特的上下文,这就需要数据。

您公司的庞大代码库、文档和变更日志?这些是您编程智能体的数据。您的历史提案和合同库?这些是您写作助手的数据。您的客户数据库和支持工单?这些是您客服聊天机器人的数据。

但是,仅仅因为所有这些数据存在,并不意味着它们是好的数据。

"将模型指向任何可用数据都非常容易," Unisys云、应用和基础设施解决方案高级副总裁兼总经理Manju Naglapur说。"在过去三年中,我们一遍又一遍地看到这种错误。垃圾进、垃圾出的古老格言仍然成立。"

根据波士顿咨询公司9月发布的一项调查,在1250名AI高级决策者中,68%的人表示缺乏高质量数据是采用AI时的关键挑战。其他最新研究也证实了这一点。在思科10月对超过8000名AI领导者的调查中,只有35%的公司拥有干净、集中且具有实时集成的数据供智能体使用。根据IDC的预测,到2027年,不优先考虑高质量、AI就绪数据的公司将在扩展生成式AI和智能体解决方案时遇到困难,导致15%的生产力损失。

语义层面的混乱

将所有数据混合在一起使用的另一个问题是语义层会变得混乱。当数据来自多个来源时,同一类型的信息可能以多种方式定义和结构化。随着新项目或新收购导致数据源数量激增,这个挑战会加剧。即使只是跟踪客户——最关键的数据类型——基本数据问题对许多公司来说都很困难。

邓白氏公司去年报告称,超过一半的受访组织对其在AI中利用的数据的可信度和质量表示担忧。例如,在金融服务行业,52%的公司表示AI项目因数据质量差而失败。根据12月发布的一项涵盖2000多名行业专业人士的调查,44%的公司表示数据质量是他们对2026年最大的担忧,仅次于网络安全。

云咨询公司Lemongrass的首席技术官Eamonn O'Neill说,拥有多个相互冲突的数据标准对每个人来说都是挑战。

"每一个不匹配都是风险,"他说。"但人类会想出解决办法。"

他补充说,如果您了解挑战所在,并投入时间和精力来解决它,AI也可以配置为做类似的事情。即使数据是干净的,公司仍应进行语义映射练习。如果数据不完美,就需要时间来整理。

"选择一个数据量小的用例并做好,"他说。"这是可行的。然后你再扩展。这就是成功采用的样子。"

未管理和非结构化数据的问题

O'Neill说,公司在将AI连接到公司信息时犯的另一个错误是让AI指向非结构化数据源。是的,大语言模型非常擅长读取非结构化数据并理解文本和图像。问题是并非所有文档都值得AI关注。

例如,文档可能已过时。或者它们可能是尚未编辑的文档早期版本,或者其中有错误。

"人们经常看到这种情况,"他说。"我们将您的OneDrive或文件存储连接到聊天机器人,突然间它无法区分'版本2'和'版本2最终版'。"

他补充说,人类用户很难维护适当的版本控制。"微软可以为您处理不同版本,但人们仍然会'另存为',最终您会有大量非结构化数据," O'Neill说。

安全控制的缺失

当CIO通常考虑与AI系统相关的安全性时,他们可能会考虑模型的防护栏,或围绕训练数据和用于RAG嵌入的数据的保护。但随着基于聊天机器人的AI发展为智能体AI,安全问题变得更加复杂。

例如,假设有一个员工薪资数据库。如果员工对自己的薪资有疑问并询问嵌入在AI门户中的AI聊天机器人,RAG嵌入方法是使用传统代码仅从数据库中收集相关数据,将其嵌入到提示中,然后将查询发送给AI。AI只能看到它被允许看到的信息,传统的确定性软件堆栈处理保持其余员工数据安全的问题。

但当系统发展为智能体系统时,AI智能体可以通过MCP服务器自主查询数据库,由于它们需要能够回答任何员工的问题,因此需要访问所有员工数据,防止数据落入错误之手成为一项重大任务。

根据思科的调查,只有27%的公司对AI系统有动态和详细的访问控制,不到一半的公司对保护敏感数据或防止未经授权的访问有信心。

O'Neill说,如果所有数据都被收集到数据湖中,情况会变得更加复杂。

"如果您放入了来自许多不同来源的数据,每个单独的来源都可能有自己的安全模型,"他说。"当您将所有这些都放入块存储中时,您会失去控制的粒度。"

试图在事后添加安全层可能很困难。他说,解决方案是直接访问原始数据源,完全跳过数据湖。

"这是为了永远保存历史记录,因为存储如此便宜,机器学习可以看到随时间变化的模式和趋势,"他说。"此外,如果您混合来自不同来源的数据,可以发现跨学科模式。"

数字化转型咨询公司Sutherland Global的CIO兼CDO Doug Gilbert说,一般来说,当涉及AI智能体而非人类时,数据访问会发生巨大变化。

"对于人类,有大量围绕人类的安全性,"他说。"例如,大多数用户界面都是这样编写的:如果是仅限数字的字段,您不能在其中输入字母。但一旦您引入AI,这一切都消失了。这是您系统的原始后门。"

速度陷阱

但Gilbert看到CIO犯的头号错误是他们行动过快。"这就是大多数项目失败的原因,"他说。"对速度的竞争如此激烈。"

他补充说,CIO经常将数据问题视为减速,但所有这些事情都是巨大的风险。"很多做AI项目的人会被审计,他们将不得不停下来重新做一切,"他说。

因此,正确处理数据并不是减速。"当您建立适当的基础设施时,您就会在创新中快速前进,通过审计,并具有合规性,"他说。

另一个可能感觉像不必要的时间浪费的领域是测试。快速行动、破坏事物,然后在部署后稍后修复它们并不总是好策略。

"以光速移动的错误成本是什么?"他问。"我总是先进行测试。令人惊讶的是,我们看到有多少产品在没有任何测试的情况下推向市场。"

利用AI修复数据

缺乏质量数据的问题可能感觉像是一个绝望的问题,随着AI用例的扩展只会变得更糟。

在AvePoint基于775名全球商业领袖调查的10月报告中,81%的组织已经因数据管理或数据安全问题而延迟部署AI助手,平均延迟六个月。

与此同时,不仅AI项目的数量继续增长,数据量也在增长。近52%的受访者还表示他们的公司正在管理超过500PB的数据,高于一年前的41%。

但Unisys的Naglapur说,由于AI的存在,获得客户360度视图以及清理和协调其他数据源将变得更容易。

"这是悖论,"他说。"AI将帮助解决一切。如果您考虑需要三年的数字化转型,现在您可以在12到18个月内用AI完成。"工具正越来越接近现实,它们将加速变革的步伐,他说。

Q&A

Q1:为什么说数据质量是生成式AI成功的关键?

A:因为虽然大家都在使用相同的AI模型和工具,但真正创造竞争优势的是能够训练和微调自己的模型,或为模型提供独特的上下文,这都需要高质量的数据。垃圾进、垃圾出的古老格言在AI时代仍然成立。

Q2:企业在AI数据使用中常犯哪些错误?

A:主要错误包括:将AI指向任何可用数据而不考虑质量;让数据的语义层变得混乱;将AI连接到未管理的非结构化数据源;在数据安全方面缺乏精细控制;以及行动过快而忽视数据基础设施建设。

Q3:如何解决AI项目中的数据质量问题?

A:建议采用循序渐进的方法:从小规模用例开始并做好,然后再扩展;进行语义映射练习;建立适当的版本控制;实施动态和详细的访问控制;优先进行充分测试。同时,AI本身也可以帮助清理和协调数据源。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

容维证券服务费可以退吗?答案是... 容维证券服务费可以退吗?答案是肯定的!退费就现在!投资有风险,投资需谨慎!针对网上素未谋面的网友、网...
海能投资收费解析!服务费是可以... 海能投资收费解析!服务费是可以退!宣传于实际不符缴费基本都是亏损!投资有风险,投资需谨慎!针对网上素...
江苏天鼎证券服务不靠谱,可以退... 江苏天鼎证券服务不靠谱,可以退费!有法可依!误导性宣传欺诱导股民,误导交费已退款投资有风险,投资需谨...
云南约牛证券吹嘘实力欺骗投资者... 云南约牛证券吹嘘实力欺骗投资者,49800元已退回!投资有风险,投资需谨慎!针对网上素未谋面的网友、...
江苏天鼎证券服务费怎么退?合法... 江苏天鼎证券服务费怎么退?合法途径助你成功退费!具体退款流程攻略!退费流程公布!投资有风险,投资需谨...
容维证券误导性宣传欺骗股友服务... 容维证券误导性宣传欺骗股友服务费!交费29800元打水漂,维权可退款!投资有风险,投资需谨慎!针对网...
云南约牛证券服务费怎么退?真相... 云南约牛证券服务费怎么退?真相公开,高价服务竟是空头支票可退费!投资有风险,投资需谨慎!针对网上素未...
江苏天鼎证券证券投顾怎么样虚假... 江苏天鼎证券证券投顾怎么样虚假宣传骗取会员费可追回!,受害者已维权退费!投资有风险,投资需谨慎!针对...
策牛深圳科技口碑怎么样?夸大宣... 策牛深圳科技口碑怎么样?夸大宣传真相令人防不胜防!教你怎么退回服务费!投资有风险,投资需谨慎!针对网...
江苏天鼎证券,,层层升级只为收... 江苏天鼎证券,,层层升级只为收取服务费,,可退费!投资有风险,投资需谨慎!针对网上素未谋面的网友、网...
神光投顾服务费能退? 业务员虚... 神光投顾服务费能退? 业务员虚假承诺骗取股民服务费!误导性宣传欺騙股民已退费!投资有风险,投资需谨慎...
海能投顾业务员虚假宣传欺骗消费... 海能投顾业务员虚假宣传欺骗消费者,投顾公司解析,股友欲哭无泪!可追回投资有风险,投资需谨慎!针对网上...
广东博众智能科技推荐的股票怎么... 广东博众智能科技推荐的股票怎么样?虚假宣传欺骗股民不可信,承诺牛股不可信投资有风险,投资需谨慎!针对...
上海海能证券荐股亏损严重,夸大... 上海海能证券荐股亏损严重,夸大误导性宣传可以退款!怂恿交费,别再当冤大头!维权退回服务费用!投资有风...
广东博众智能科技交的服务费能退... 广东博众智能科技交的服务费能退!缴费实为陷进,大家引以为戒投资有风险,投资需谨慎!针对网上素未谋面的...
河北源达公司坑了服务费咋整?别... 河北源达公司坑了服务费咋整?别慌,维权退费指南来了!投资有风险,投资需谨慎!针对网上素未谋面的网友、...
广东博众智能科技可信吗? 宣传... 广东博众智能科技可信吗? 宣传与实际两回事!服务费已退!投资有风险,投资需谨慎!针对网上素未谋面的网...
云南约牛证券缴费炒股能赚钱吗?... 云南约牛证券缴费炒股能赚钱吗?真实案例分析?不要上当投资有风险,投资需谨慎!针对网上素未谋面的网友、...
容维证券服务费能退吗?夸大荐股... 容维证券服务费能退吗?夸大荐股实力!说交费后跟赚,结果却事与愿违!投顾服务费被骗真相曝光!全是套路!...
海能投资选股可靠吗,虚假宣传不... 海能投资选股可靠吗,虚假宣传不可靠,教你一招快速退费!68000,已成功退费!投资有风险,投资需谨慎...
策牛深圳科技推荐的股票靠谱吗?... 策牛深圳科技推荐的股票靠谱吗? 答案是:可以退的!退款流程公布!误导性宣传欺骗股民已退费投资有风险,...
策牛深圳科技资选股可靠吗?误导... 策牛深圳科技资选股可靠吗?误导性宣传!缴费亏损推脱市场部好!交费荐股套路防不胜防!退费流程我来告诉你...
云南约牛软件交费被坑?投顾服务... 云南约牛软件交费被坑?投顾服务费,有法可依轻松追回!投资有风险,投资需谨慎!针对网上素未谋面的网友、...
容维证券怎么退? 能退款方法分... 容维证券怎么退? 能退款方法分享!误导性宣传高收益诱导升级被坑一招退费!投资有风险,投资需谨慎!针对...
广东博众投资吹嘘收益怂恿缴费,... 广东博众投资吹嘘收益怂恿缴费,大量投资者被骗,承诺收益!,退费流程分享!投资有风险,投资需谨慎!针对...