您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center 汽车系统工程   模型库  
会员   
   
基于SysML和EA进行系统设计与建模
7月16-17日 深圳+线上
UAF架构体系与实践
7月23-24日 北京+线上
Spec Driven Development 工程化实践
7月28-29日 北京+线上
     
   
 订阅
一篇讲透AI时代的数据质量:从字段正确到机器可用
 
  4   次浏览      
 2026-7-6
 
编辑推荐:
本文介绍在AI时代,如何重新定义和管理数据质量,以确保数据能够被机器(如大模型)正确理解和消费,希望对你的学习有帮助。
本文来自于大鱼的数据人生,由Alice编辑、推荐。

你一定开过这种会。

数据团队在PPT上汇报:空值率降了,重复率降了,规则通过率95%,主数据对齐率90%以上。

大家听着都觉得不错。

然后业务抬头问了一句:

"那为什么AI助手还是老答错?"

会议室安静了。

因为这时候你会发现,大家说的根本不是同一种"数据质量"。

你说的数据质量,还是报表时代那套:字段对不对,值全不全,口径一不一致。

业务在问的数据质量,已经是 AI时代那套 :文档能不能被读懂,知识能不能被找对,答案能不能追到源头。

这不是小修小补的问题。这是很多企业今天最容易犯的认知错误:

还在用"字段质量"的眼光,理解"AI可用的数据质量"。

先做一个三问测试

第一问: 你说"我们数据质量不错",这句话到底是对BI说的,还是对AI说的?

第二问: 一份制度文件原文完全正确,但因为切分方式有问题,AI总是漏掉例外条款。这算不算数据质量问题?

第三问: 一份合同内容没错,但系统检索时总命中旧版本,模型引用了过期条款。这算不算数据质量问题?

如果这三问你答得并不顺,你对数据质量的理解 大概率还停在报表时代 。

如果三个问题都答得很顺,直接跳到第3章。如果不能,这篇文章会帮你把认知刷新到AI时代的标准。

读完这篇,你至少能做到:

  1. 一句话向老板讲清数据质量到底是什么
  2. 分清传统数据质量和AI时代数据质量差在哪
  3. 以后再遇到"AI答错",你知道该查字段、查文档、查切分、查检索,还是查来源

第1章 一句话说清数据质量

数据质量,就是数据在特定用途下满足使用需求的程度。

这个定义里最关键的四个字: 特定用途 。

同一份客户数据,拿去做营销触达,最重要的是完整、准确、及时。拿去做风控判断,又会更强调真实性和来源可靠性。

同一份制度文档,给人看只要能读通就行;给AI用,还得保证它能被正确解析、正确切分、正确检索、正确引用。

所以数据质量从来不是一个孤立分数。不是"85分就算好"。

它是:为了这次用途,这份数据够不够用,能不能信。

打个贯穿全文的比方

数据质量就是水质。

脱离用途谈水质没有意义——自来水不能直饮但冲厕所绰绰有余,芯片制造需要超纯水但你不会拿它浇花。

标准取决于用途。

容易搞混的三个概念

  • 数据治理 :关注组织、制度、流程、权责。数据质量是治理的核心目标之一。
  • 数据清洗 :修复已有的脏数据。只是质量管理闭环中的一个环节。
  • 数据标准 :统一定义和格式。是质量管理的前提条件。

数据清洗是"治病",数据标准是"体检标准",数据治理是"公共卫生体系"。数据质量是这套体系要守住的底线。

第2章 传统数据质量:六维度和管理闭环

大多数人熟悉的数据质量,围绕这几个维度:

六大维度一览

  • 准确性 :值是不是反映了真实情况?(水质类比:pH值是否准确)→ 典型问题:年龄记录为200岁
  • 完整性 :关键数据有没有缺?(报告是否漏测指标)→ 典型问题:30%客户没邮箱
  • 一致性 :多个系统的说法是否打架?(两个监测站读数一致吗)→ 典型问题:CRM和ERP地址冲突
  • 时效性 :数据是不是已经过期?(报告是今天还是三月前)→ 典型问题:用去年库存做今天补货
  • 唯一性 :同一对象有没有重复记录?(同一水源不建两份档)→ 典型问题:张三和Zhang San两条记录
  • 合规性 :是否符合法规和标准?(排放达环保标准吗)→ 典型问题:个人数据不符《 个保法

这一套没有错。今天仍然重要。

但它有一个明确的 适用边界 :主要是为结构化数据设计的。

表、字段、主键、枚举值、指标口径、报表链路——在那个世界里,数据质量关心的是"这个值对不对""这个字段空不空""这个口径有没有统一"。

六个维度怎么管?靠闭环

这六个维度靠一个持续运转的闭环来管: 定义→度量→监控→修复→预防 。

  1. 定义 ,先定标准——哪些字段不能为空、数值范围是多少、跨系统一致性规则是什么。
  2. 度量 ,把规则跑起来,产出质量评分。
  3. 监控 ,设告警阈值,异常自动报警。
  4. 修复 ,发现问题就修——但这是成本最高的环节。
  5. 预防 ,最高效的质量管理是让脏数据根本不产生,在源头把关。

90%的企业只做了监控+修复,跳过了定义标准+源头预防。这就像天天给水消毒但从不管上游工厂的排污——永远治不了根。

到这里,如果你觉得"把六维度管好、五个环节跑起来就够了"——我建议继续读。

下一章会解释一件 很多人没想到的事 。

第3章 AI时代:为什么老办法突然不够了

因为企业真正开始拿来用的, 不再只是表里的数据了 。

现在被送进模型、送进知识库、送进 RAG 的,越来越多是这些东西:

合同、制度、邮件、纪要、FAQ、方案、图纸、代码、音视频。

它们有一个共同点: 不是天然按字段排好的 。

你不能像管理订单表那样管理一份PDF。你也不能像检查手机号格式那样检查一段会议纪要。

过去你主要在管"值"。现在你还要开始管"意义"。

这就是AI时代最关键的变化:数据质量,开始从"字段正确"升级成"机器可用"。

很多企业的问题就出在这里。

它们以为自己已经有数据质量体系了——规则平台有,扫描任务有,质量报表也有。

但当AI上来之后,问题还是一堆。

因为它们的质量体系主要是为 报表引擎 设计的,不是为 检索系统和大模型 设计的。

报表引擎需要的是结构化正确。大模型需要的是语义可消费。这是两回事。

第4章 AI时代的数据质量,分成五层

如果还用"准确、完整、一致"去硬讲AI时代的问题,会越讲越乱。

更好的方式是 直接换一个框架 。

第1层:源数据质量

这是底座。

值对不对、该有的有没有、多系统是否一致、数据是不是最新、有没有重复。就是前面讲的 经典六维度 。

这一层没做好,后面别谈。你喂进去的源头就错了,后面所有智能化都会越跑越偏。

第2层:表示质量

这层很多企业以前根本没当成"数据质量"。但现在 必须算 。

同一份信息,有没有被正确地表达出来。

扫描件太歪。OCR把"不得"识别成"得"。表格跨页后结构断了。标题和正文没分开。页眉页脚被当成正文灌进去了。

这时候问题不是"知识错了",而是"知识没有被正确表示"。人读原文可能还能看懂,机器不一定。

第3层:语义质量

AI时代 最容易出问题 的一层。

一份文档原文完全正确。但如果切分方式不对,语义就可能已经坏了。

"原则"在一个 chunk 里,"例外条款"被切到另一个chunk里。模型只看见原则,没看见例外。最后给出一个看似正确、其实错误的回答。

原文错了吗?没错。系统答错了吗?答错了。

问题出在语义质量——内容有没有完整保留原意,上下文关系有没有被切断。

第4层:检索质量

很多团队一遇到AI问答不准,第一反应是模型不行。其实大量问题 发生在模型调用之前 。

知识没找到。找到的不是最相关的。找到的是旧版本。找到的是不该被当前用户看到的内容。

"库里明明有,为什么答不出来?"——因为"有"不等于"能命中"。"能命中"也不等于"命中的是对的那份"。

第5层:来源与追溯质量

AI时代特别关键,但过去 几乎没人管 的一层。

答案从哪来?引用的是哪份文件?是不是最新版本?谁上传的?谁审核的?出了问题能不能追责?

今天越来越多的业务会反过来问:这句话依据哪份制度?这份制度是今年新版还是去年旧版?

如果答不上来,业务就不会信。 信任起不来,AI就推不动 。

五层合起来

源数据质量 → 表示质量 → 语义质量 → 检索质量 → 来源与追溯质量。

少一层都可能翻车。

过去的数据质量,回答的是"这条记录能不能算"。今天的数据质量,还要回答"这段知识能不能被机器正确消费"。

第5章 "原文没错,AI还是答错"——到底怎么回事

这是最值得讲透的一件事。

文档明明是对的。制度明明已经上传。知识库明明也建了。

为什么AI还是答错?

因为从"原文"到"答案",中间隔着一整条链路:

文档被上传 → 系统做解析识别 → 内容被切分 → 建立索引 → 用户提问 → 系统先检索再生成 → 答案返回。

这条链路里, 任何一步坏了 ,最后都表现成"AI又答错了"。

但"AI答错"只是表象。真正的根因可能完全不同:

  • OCR错了 → 是 表示质量
  • 切分错了 → 是 语义质量
  • 检索命中旧版本 → 是 检索质量
  • 答案没带出处 → 是 追溯质量
  • 源数据本身就错了 → 那才是 源数据质量

你会发现一件重要的事:

AI时代的数据质量,不再只是检查数据本身,还要检查数据进入机器链路后的表现。

这也是为什么今天如果还只盯空值率、重复率、规则通过率, 很多问题根本看不见 。

一个值得记住的判断

这句话可以直接拿去开会:

很多AI项目的"效果不好",本质上不是模型问题,而是数据质量的衡量单位变了。

以前用"记录"做质量单位——管一行数据的对错。

现在得用"知识对象"和"使用链路"做质量单位——管一段知识的表示、切分、检索、引用是否正确。

不是数据质量突然变复杂了。是你过去管的,只是它里面最容易量化、最适合放进报表的那部分。

第6章 数据质量最大的敌人不是技术

业务说"我们数据没问题"——因为承认数据有问题就等于承认 自己流程有问题 。这不是认知问题,是利益问题。

IT说是业务的事,业务说是IT的事,老板说是数据团队的事——项目在 踢皮球中死掉 。

"AI分类必须100%准确才能上线"——连注册会计师审计都有重大性水平。追求100%不是严谨, 是逃避 。

正确的做法

  • 明确数据Owner到人
  • 从最痛的场景开始,而不是搞全量
  • 接受机器80%+人工20%的 协作模式

技术能看见问题,但只有业务能定义标准,只有管理层能分配资源,只有制度能保证持续运营。缺了任何一个,技术再好也是摆设。

第7章 企业到底该怎么做

别一上来就喊"建设AI时代全栈数据质量体系"。这句话很大,也很空。

第一,先守住老底座

主数据、交易数据、指标数据的准确性、完整性、一致性、时效性, 继续做 。

不要因为都在谈AI就把传统数据质量当旧时代遗产。底座没了,AI只会放大混乱。

第二,把非结构化数据正式纳入质量视野

过去很多企业默认"表里的数据才叫数据,文档邮件算附件"。

对AI来说,真正被消费的往往不是表, 是内容 。

第三,把质量规则从"字段规则"扩成"链路规则"

传统规则是"不能为空""格式必须正确"。

现在还要加:

  • 扫描质量不达标的不入库
  • 没有版本号的制度不参与检索
  • 标题层级丢失的长文档需要重处理
  • 高风险回答必须附 原文引用

第四,别只看进库质量,要看使用质量

很多企业只看"入湖入仓"时的质量评分,但业务真正痛的发生在"用的时候"。

你要开始盯:

  • 问答命中率
  • 正确引用率
  • 旧版本命中率
  • 文档可解析率

厂商话术一句话拆穿

  • "一站式数据质量平台":只做了检测和清洗,治理流程和权责得你自己建。
  • "AI驱动的智能数据质量":多了些异常检测ML模型,核心还是规则引擎。
  • "数据质量开箱即用":通用规则覆盖30%,剩下70%要针对业务写。
  • "数据质量管理解决方案":工具≠管理,没人定标准没人跟进就是摆设。

第8章 速查表:以后AI答错了,先查这张表

这个可以 直接拿去开会 。

以后再有人一句话说"AI效果不好",先追问一句:到底是哪一层质量出了问题?这句话一问出来,讨论才真正开始。

成熟度自评表(建议截图保存)

从L0往下勾,第一个勾不上的就是当前层次。

大多数企业在L1-L2之间。

最后收一下

如果现在有人再问你:数据质量是什么?

你可以这样回答:

数据质量,不是数据看起来干不干净,而是它在具体用途下能不能持续、稳定、可信地产生正确结果。在传统系统里,它主要体现为准确、完整、一致、及时。在AI系统里,它还要进一步体现为可读、可切、可找、可引、可追溯。

过去的数据质量,主要服务报表。今天的数据质量, 开始直接服务AI 。

这就是为什么"字段都对了"AI还是可能答错——你管对了旧问题,不等于你已经管住了新问题。

三句开会能直接用的话

对老板说:

"如果我们继续只用字段质量理解数据质量,AI项目会不断出现'原文没错、答案还错'的问题,业务信任起不来。"

对业务说:

"你们觉得AI不稳定,未必是模型不行,很多时候是知识没被正确组织、正确检索和正确引用。"

对技术团队说:

"这件事不是多塞点文档进去就行,核心是把文档变成可解析、可切分、可检索、可追溯的 知识对象 。"

你在实际工作中遇到过"数据看起来干净,AI效果还是差"的情况吗?

最后排查下来根因在哪一层?

欢迎在评论区聊聊你的排查经验。

在报表时代,数据质量回答的是"能不能算"。在AI时代,它开始回答"能不能信"。管不住这条线的企业,AI做得越猛,翻车越狠。

   
4   次浏览       
相关文章

基于EA的数据库建模
数据流建模(EA指南)
“数据湖”:概念、特征、架构与案例
在线商城数据库系统设计 思路+效果
 
相关文档

Greenplum数据库基础培训
MySQL5.1性能优化方案
某电商数据中台架构实践
MySQL高扩展架构设计
相关课程

数据治理、数据架构及数据标准
MongoDB实战课程
并发、大容量、高性能数据库设计与优化
PostgreSQL数据库实战培训

最新活动计划
UAF架构体系与实践 7-23[北京]
SysML和EA系统设计与建模 7-16[深圳]
Spec 驱动开发(SDD)实战 7-28[北京]
AI辅助软件测试方法与实践 7-31[在线]
AI智能体开发技术实践 8-6[上海]
基于UML和EA系统分析设计 8-20[上海]
 
 
最新文章
大数据平台下的数据治理
如何设计实时数据平台(技术篇)
大数据资产管理总体框架概述
Kafka架构和原理
ELK多种架构及优劣
最新课程
大数据平台搭建与高性能计算
大数据平台架构与应用实战
大数据系统运维
大数据分析与管理
Python及数据分析
更多...   
成功案例
某通信设备企业 Python数据分析与挖掘
某银行 人工智能+Python+大数据
北京 Python及数据分析
神龙汽车 大数据技术平台-Hadoop
中国电信 大数据时代与现代企业的数据化运营实践
更多...