生成式AI成功关键:数据质量决定一切
创始人
2026-01-15 19:18:25

生成式AI正在成为几乎所有行业的颠覆性力量,但仅仅使用最好的AI模型和工具还不够。每个人都在使用相同的工具,而真正创造竞争优势的是能够训练和微调自己的模型,或为它们提供独特的上下文,这就需要数据。

您公司的庞大代码库、文档和变更日志?这些是您编程智能体的数据。您的历史提案和合同库?这些是您写作助手的数据。您的客户数据库和支持工单?这些是您客服聊天机器人的数据。

但是,仅仅因为所有这些数据存在,并不意味着它们是好的数据。

"将模型指向任何可用数据都非常容易," Unisys云、应用和基础设施解决方案高级副总裁兼总经理Manju Naglapur说。"在过去三年中,我们一遍又一遍地看到这种错误。垃圾进、垃圾出的古老格言仍然成立。"

根据波士顿咨询公司9月发布的一项调查,在1250名AI高级决策者中,68%的人表示缺乏高质量数据是采用AI时的关键挑战。其他最新研究也证实了这一点。在思科10月对超过8000名AI领导者的调查中,只有35%的公司拥有干净、集中且具有实时集成的数据供智能体使用。根据IDC的预测,到2027年,不优先考虑高质量、AI就绪数据的公司将在扩展生成式AI和智能体解决方案时遇到困难,导致15%的生产力损失。

语义层面的混乱

将所有数据混合在一起使用的另一个问题是语义层会变得混乱。当数据来自多个来源时,同一类型的信息可能以多种方式定义和结构化。随着新项目或新收购导致数据源数量激增,这个挑战会加剧。即使只是跟踪客户——最关键的数据类型——基本数据问题对许多公司来说都很困难。

邓白氏公司去年报告称,超过一半的受访组织对其在AI中利用的数据的可信度和质量表示担忧。例如,在金融服务行业,52%的公司表示AI项目因数据质量差而失败。根据12月发布的一项涵盖2000多名行业专业人士的调查,44%的公司表示数据质量是他们对2026年最大的担忧,仅次于网络安全。

云咨询公司Lemongrass的首席技术官Eamonn O'Neill说,拥有多个相互冲突的数据标准对每个人来说都是挑战。

"每一个不匹配都是风险,"他说。"但人类会想出解决办法。"

他补充说,如果您了解挑战所在,并投入时间和精力来解决它,AI也可以配置为做类似的事情。即使数据是干净的,公司仍应进行语义映射练习。如果数据不完美,就需要时间来整理。

"选择一个数据量小的用例并做好,"他说。"这是可行的。然后你再扩展。这就是成功采用的样子。"

未管理和非结构化数据的问题

O'Neill说,公司在将AI连接到公司信息时犯的另一个错误是让AI指向非结构化数据源。是的,大语言模型非常擅长读取非结构化数据并理解文本和图像。问题是并非所有文档都值得AI关注。

例如,文档可能已过时。或者它们可能是尚未编辑的文档早期版本,或者其中有错误。

"人们经常看到这种情况,"他说。"我们将您的OneDrive或文件存储连接到聊天机器人,突然间它无法区分'版本2'和'版本2最终版'。"

他补充说,人类用户很难维护适当的版本控制。"微软可以为您处理不同版本,但人们仍然会'另存为',最终您会有大量非结构化数据," O'Neill说。

安全控制的缺失

当CIO通常考虑与AI系统相关的安全性时,他们可能会考虑模型的防护栏,或围绕训练数据和用于RAG嵌入的数据的保护。但随着基于聊天机器人的AI发展为智能体AI,安全问题变得更加复杂。

例如,假设有一个员工薪资数据库。如果员工对自己的薪资有疑问并询问嵌入在AI门户中的AI聊天机器人,RAG嵌入方法是使用传统代码仅从数据库中收集相关数据,将其嵌入到提示中,然后将查询发送给AI。AI只能看到它被允许看到的信息,传统的确定性软件堆栈处理保持其余员工数据安全的问题。

但当系统发展为智能体系统时,AI智能体可以通过MCP服务器自主查询数据库,由于它们需要能够回答任何员工的问题,因此需要访问所有员工数据,防止数据落入错误之手成为一项重大任务。

根据思科的调查,只有27%的公司对AI系统有动态和详细的访问控制,不到一半的公司对保护敏感数据或防止未经授权的访问有信心。

O'Neill说,如果所有数据都被收集到数据湖中,情况会变得更加复杂。

"如果您放入了来自许多不同来源的数据,每个单独的来源都可能有自己的安全模型,"他说。"当您将所有这些都放入块存储中时,您会失去控制的粒度。"

试图在事后添加安全层可能很困难。他说,解决方案是直接访问原始数据源,完全跳过数据湖。

"这是为了永远保存历史记录,因为存储如此便宜,机器学习可以看到随时间变化的模式和趋势,"他说。"此外,如果您混合来自不同来源的数据,可以发现跨学科模式。"

数字化转型咨询公司Sutherland Global的CIO兼CDO Doug Gilbert说,一般来说,当涉及AI智能体而非人类时,数据访问会发生巨大变化。

"对于人类,有大量围绕人类的安全性,"他说。"例如,大多数用户界面都是这样编写的:如果是仅限数字的字段,您不能在其中输入字母。但一旦您引入AI,这一切都消失了。这是您系统的原始后门。"

速度陷阱

但Gilbert看到CIO犯的头号错误是他们行动过快。"这就是大多数项目失败的原因,"他说。"对速度的竞争如此激烈。"

他补充说,CIO经常将数据问题视为减速,但所有这些事情都是巨大的风险。"很多做AI项目的人会被审计,他们将不得不停下来重新做一切,"他说。

因此,正确处理数据并不是减速。"当您建立适当的基础设施时,您就会在创新中快速前进,通过审计,并具有合规性,"他说。

另一个可能感觉像不必要的时间浪费的领域是测试。快速行动、破坏事物,然后在部署后稍后修复它们并不总是好策略。

"以光速移动的错误成本是什么?"他问。"我总是先进行测试。令人惊讶的是,我们看到有多少产品在没有任何测试的情况下推向市场。"

利用AI修复数据

缺乏质量数据的问题可能感觉像是一个绝望的问题,随着AI用例的扩展只会变得更糟。

在AvePoint基于775名全球商业领袖调查的10月报告中,81%的组织已经因数据管理或数据安全问题而延迟部署AI助手,平均延迟六个月。

与此同时,不仅AI项目的数量继续增长,数据量也在增长。近52%的受访者还表示他们的公司正在管理超过500PB的数据,高于一年前的41%。

但Unisys的Naglapur说,由于AI的存在,获得客户360度视图以及清理和协调其他数据源将变得更容易。

"这是悖论,"他说。"AI将帮助解决一切。如果您考虑需要三年的数字化转型,现在您可以在12到18个月内用AI完成。"工具正越来越接近现实,它们将加速变革的步伐,他说。

Q&A

Q1:为什么说数据质量是生成式AI成功的关键?

A:因为虽然大家都在使用相同的AI模型和工具,但真正创造竞争优势的是能够训练和微调自己的模型,或为模型提供独特的上下文,这都需要高质量的数据。垃圾进、垃圾出的古老格言在AI时代仍然成立。

Q2:企业在AI数据使用中常犯哪些错误?

A:主要错误包括:将AI指向任何可用数据而不考虑质量;让数据的语义层变得混乱;将AI连接到未管理的非结构化数据源;在数据安全方面缺乏精细控制;以及行动过快而忽视数据基础设施建设。

Q3:如何解决AI项目中的数据质量问题?

A:建议采用循序渐进的方法:从小规模用例开始并做好,然后再扩展;进行语义映射练习;建立适当的版本控制;实施动态和详细的访问控制;优先进行充分测试。同时,AI本身也可以帮助清理和协调数据源。

相关内容

热门资讯

澎湃漫评|AI图片开始入侵实体... AI图片开始入侵实体书了? 近日有网友爆料称,其花费30元购买的《人像摄影口袋书》中大量人像图片疑似...
生成式AI成功关键:数据质量决... 生成式AI正在成为几乎所有行业的颠覆性力量,但仅仅使用最好的AI模型和工具还不够。每个人都在使用相同...
财通基金金梓才:AI算力需求尚... 上证报中国证券网讯(记者 聂林浩)1月15日,财通基金副总经理、权益投资总监金梓才在财通基金2026...
WitnessAI融资5800... 随着企业在业务运营中广泛部署AI聊天机器人、智能体和AI助手,它们正面临一个全新的风险挑战:如何让员...