生成式AI成功关键：数据质量决定一切_科学探索

生成式AI成功关键：数据质量决定一切

创始人

2026-01-15 19:18:25

生成式AI正在成为几乎所有行业的颠覆性力量，但仅仅使用最好的AI模型和工具还不够。每个人都在使用相同的工具，而真正创造竞争优势的是能够训练和微调自己的模型，或为它们提供独特的上下文，这就需要数据。

您公司的庞大代码库、文档和变更日志？这些是您编程智能体的数据。您的历史提案和合同库？这些是您写作助手的数据。您的客户数据库和支持工单？这些是您客服聊天机器人的数据。

但是，仅仅因为所有这些数据存在，并不意味着它们是好的数据。

"将模型指向任何可用数据都非常容易，" Unisys云、应用和基础设施解决方案高级副总裁兼总经理Manju Naglapur说。"在过去三年中，我们一遍又一遍地看到这种错误。垃圾进、垃圾出的古老格言仍然成立。"

根据波士顿咨询公司9月发布的一项调查，在1250名AI高级决策者中，68%的人表示缺乏高质量数据是采用AI时的关键挑战。其他最新研究也证实了这一点。在思科10月对超过8000名AI领导者的调查中，只有35%的公司拥有干净、集中且具有实时集成的数据供智能体使用。根据IDC的预测，到2027年，不优先考虑高质量、AI就绪数据的公司将在扩展生成式AI和智能体解决方案时遇到困难，导致15%的生产力损失。

语义层面的混乱

将所有数据混合在一起使用的另一个问题是语义层会变得混乱。当数据来自多个来源时，同一类型的信息可能以多种方式定义和结构化。随着新项目或新收购导致数据源数量激增，这个挑战会加剧。即使只是跟踪客户——最关键的数据类型——基本数据问题对许多公司来说都很困难。

邓白氏公司去年报告称，超过一半的受访组织对其在AI中利用的数据的可信度和质量表示担忧。例如，在金融服务行业，52%的公司表示AI项目因数据质量差而失败。根据12月发布的一项涵盖2000多名行业专业人士的调查，44%的公司表示数据质量是他们对2026年最大的担忧，仅次于网络安全。

云咨询公司Lemongrass的首席技术官Eamonn O'Neill说，拥有多个相互冲突的数据标准对每个人来说都是挑战。

"每一个不匹配都是风险，"他说。"但人类会想出解决办法。"

他补充说，如果您了解挑战所在，并投入时间和精力来解决它，AI也可以配置为做类似的事情。即使数据是干净的，公司仍应进行语义映射练习。如果数据不完美，就需要时间来整理。

"选择一个数据量小的用例并做好，"他说。"这是可行的。然后你再扩展。这就是成功采用的样子。"

未管理和非结构化数据的问题

O'Neill说，公司在将AI连接到公司信息时犯的另一个错误是让AI指向非结构化数据源。是的，大语言模型非常擅长读取非结构化数据并理解文本和图像。问题是并非所有文档都值得AI关注。

例如，文档可能已过时。或者它们可能是尚未编辑的文档早期版本，或者其中有错误。

"人们经常看到这种情况，"他说。"我们将您的OneDrive或文件存储连接到聊天机器人，突然间它无法区分'版本2'和'版本2最终版'。"

他补充说，人类用户很难维护适当的版本控制。"微软可以为您处理不同版本，但人们仍然会'另存为'，最终您会有大量非结构化数据，" O'Neill说。

安全控制的缺失

当CIO通常考虑与AI系统相关的安全性时，他们可能会考虑模型的防护栏，或围绕训练数据和用于RAG嵌入的数据的保护。但随着基于聊天机器人的AI发展为智能体AI，安全问题变得更加复杂。

例如，假设有一个员工薪资数据库。如果员工对自己的薪资有疑问并询问嵌入在AI门户中的AI聊天机器人，RAG嵌入方法是使用传统代码仅从数据库中收集相关数据，将其嵌入到提示中，然后将查询发送给AI。AI只能看到它被允许看到的信息，传统的确定性软件堆栈处理保持其余员工数据安全的问题。

但当系统发展为智能体系统时，AI智能体可以通过MCP服务器自主查询数据库，由于它们需要能够回答任何员工的问题，因此需要访问所有员工数据，防止数据落入错误之手成为一项重大任务。

根据思科的调查，只有27%的公司对AI系统有动态和详细的访问控制，不到一半的公司对保护敏感数据或防止未经授权的访问有信心。

O'Neill说，如果所有数据都被收集到数据湖中，情况会变得更加复杂。

"如果您放入了来自许多不同来源的数据，每个单独的来源都可能有自己的安全模型，"他说。"当您将所有这些都放入块存储中时，您会失去控制的粒度。"

试图在事后添加安全层可能很困难。他说，解决方案是直接访问原始数据源，完全跳过数据湖。

"这是为了永远保存历史记录，因为存储如此便宜，机器学习可以看到随时间变化的模式和趋势，"他说。"此外，如果您混合来自不同来源的数据，可以发现跨学科模式。"

数字化转型咨询公司Sutherland Global的CIO兼CDO Doug Gilbert说，一般来说，当涉及AI智能体而非人类时，数据访问会发生巨大变化。

"对于人类，有大量围绕人类的安全性，"他说。"例如，大多数用户界面都是这样编写的：如果是仅限数字的字段，您不能在其中输入字母。但一旦您引入AI，这一切都消失了。这是您系统的原始后门。"

速度陷阱

但Gilbert看到CIO犯的头号错误是他们行动过快。"这就是大多数项目失败的原因，"他说。"对速度的竞争如此激烈。"

他补充说，CIO经常将数据问题视为减速，但所有这些事情都是巨大的风险。"很多做AI项目的人会被审计，他们将不得不停下来重新做一切，"他说。

因此，正确处理数据并不是减速。"当您建立适当的基础设施时，您就会在创新中快速前进，通过审计，并具有合规性，"他说。

另一个可能感觉像不必要的时间浪费的领域是测试。快速行动、破坏事物，然后在部署后稍后修复它们并不总是好策略。

"以光速移动的错误成本是什么？"他问。"我总是先进行测试。令人惊讶的是，我们看到有多少产品在没有任何测试的情况下推向市场。"

利用AI修复数据

缺乏质量数据的问题可能感觉像是一个绝望的问题，随着AI用例的扩展只会变得更糟。

在AvePoint基于775名全球商业领袖调查的10月报告中，81%的组织已经因数据管理或数据安全问题而延迟部署AI助手，平均延迟六个月。

与此同时，不仅AI项目的数量继续增长，数据量也在增长。近52%的受访者还表示他们的公司正在管理超过500PB的数据，高于一年前的41%。

但Unisys的Naglapur说，由于AI的存在，获得客户360度视图以及清理和协调其他数据源将变得更容易。

"这是悖论，"他说。"AI将帮助解决一切。如果您考虑需要三年的数字化转型，现在您可以在12到18个月内用AI完成。"工具正越来越接近现实，它们将加速变革的步伐，他说。

Q&A

Q1：为什么说数据质量是生成式AI成功的关键？

A：因为虽然大家都在使用相同的AI模型和工具，但真正创造竞争优势的是能够训练和微调自己的模型，或为模型提供独特的上下文，这都需要高质量的数据。垃圾进、垃圾出的古老格言在AI时代仍然成立。

Q2：企业在AI数据使用中常犯哪些错误？

A：主要错误包括：将AI指向任何可用数据而不考虑质量；让数据的语义层变得混乱；将AI连接到未管理的非结构化数据源；在数据安全方面缺乏精细控制；以及行动过快而忽视数据基础设施建设。

Q3：如何解决AI项目中的数据质量问题？

A：建议采用循序渐进的方法：从小规模用例开始并做好，然后再扩展；进行语义映射练习；建立适当的版本控制；实施动态和详细的访问控制；优先进行充分测试。同时，AI本身也可以帮助清理和协调数据源。

文档关键数据成功数量公司模型问题 O'Neill 结构化智能体数据源

上一篇：财通基金金梓才：AI算力需求尚未见到天花板

下一篇：澎湃漫评｜AI图片开始入侵实体书了？

生成式AI成功关键：数据质量决定一切

相关内容

热门资讯