| 编辑推荐: |
本文介绍在AI时代,如何重新定义和管理数据质量,以确保数据能够被机器(如大模型)正确理解和消费,希望对你的学习有帮助。
本文来自于大鱼的数据人生,由Alice编辑、推荐。 |
|
你一定开过这种会。
数据团队在PPT上汇报:空值率降了,重复率降了,规则通过率95%,主数据对齐率90%以上。
大家听着都觉得不错。
然后业务抬头问了一句:
"那为什么AI助手还是老答错?"
会议室安静了。
因为这时候你会发现,大家说的根本不是同一种"数据质量"。
你说的数据质量,还是报表时代那套:字段对不对,值全不全,口径一不一致。
业务在问的数据质量,已经是 AI时代那套 :文档能不能被读懂,知识能不能被找对,答案能不能追到源头。
这不是小修小补的问题。这是很多企业今天最容易犯的认知错误:
还在用"字段质量"的眼光,理解"AI可用的数据质量"。
先做一个三问测试
第一问: 你说"我们数据质量不错",这句话到底是对BI说的,还是对AI说的?
第二问: 一份制度文件原文完全正确,但因为切分方式有问题,AI总是漏掉例外条款。这算不算数据质量问题?
第三问: 一份合同内容没错,但系统检索时总命中旧版本,模型引用了过期条款。这算不算数据质量问题?
如果这三问你答得并不顺,你对数据质量的理解 大概率还停在报表时代 。
如果三个问题都答得很顺,直接跳到第3章。如果不能,这篇文章会帮你把认知刷新到AI时代的标准。
读完这篇,你至少能做到:
- 一句话向老板讲清数据质量到底是什么
- 分清传统数据质量和AI时代数据质量差在哪
- 以后再遇到"AI答错",你知道该查字段、查文档、查切分、查检索,还是查来源
第1章 一句话说清数据质量
数据质量,就是数据在特定用途下满足使用需求的程度。
这个定义里最关键的四个字: 特定用途 。
同一份客户数据,拿去做营销触达,最重要的是完整、准确、及时。拿去做风控判断,又会更强调真实性和来源可靠性。
同一份制度文档,给人看只要能读通就行;给AI用,还得保证它能被正确解析、正确切分、正确检索、正确引用。
所以数据质量从来不是一个孤立分数。不是"85分就算好"。
它是:为了这次用途,这份数据够不够用,能不能信。
打个贯穿全文的比方
数据质量就是水质。
脱离用途谈水质没有意义——自来水不能直饮但冲厕所绰绰有余,芯片制造需要超纯水但你不会拿它浇花。
标准取决于用途。
容易搞混的三个概念
- 数据治理 :关注组织、制度、流程、权责。数据质量是治理的核心目标之一。
- 数据清洗 :修复已有的脏数据。只是质量管理闭环中的一个环节。
- 数据标准 :统一定义和格式。是质量管理的前提条件。
数据清洗是"治病",数据标准是"体检标准",数据治理是"公共卫生体系"。数据质量是这套体系要守住的底线。
第2章 传统数据质量:六维度和管理闭环
大多数人熟悉的数据质量,围绕这几个维度:
六大维度一览
- 准确性 :值是不是反映了真实情况?(水质类比:pH值是否准确)→ 典型问题:年龄记录为200岁
- 完整性 :关键数据有没有缺?(报告是否漏测指标)→ 典型问题:30%客户没邮箱
- 一致性 :多个系统的说法是否打架?(两个监测站读数一致吗)→ 典型问题:CRM和ERP地址冲突
- 时效性 :数据是不是已经过期?(报告是今天还是三月前)→ 典型问题:用去年库存做今天补货
- 唯一性 :同一对象有没有重复记录?(同一水源不建两份档)→ 典型问题:张三和Zhang San两条记录
- 合规性 :是否符合法规和标准?(排放达环保标准吗)→ 典型问题:个人数据不符《 个保法 》
这一套没有错。今天仍然重要。
但它有一个明确的 适用边界 :主要是为结构化数据设计的。
表、字段、主键、枚举值、指标口径、报表链路——在那个世界里,数据质量关心的是"这个值对不对""这个字段空不空""这个口径有没有统一"。
六个维度怎么管?靠闭环
这六个维度靠一个持续运转的闭环来管: 定义→度量→监控→修复→预防 。
- 定义 ,先定标准——哪些字段不能为空、数值范围是多少、跨系统一致性规则是什么。
- 度量 ,把规则跑起来,产出质量评分。
- 监控 ,设告警阈值,异常自动报警。
- 修复 ,发现问题就修——但这是成本最高的环节。
- 预防 ,最高效的质量管理是让脏数据根本不产生,在源头把关。
90%的企业只做了监控+修复,跳过了定义标准+源头预防。这就像天天给水消毒但从不管上游工厂的排污——永远治不了根。
到这里,如果你觉得"把六维度管好、五个环节跑起来就够了"——我建议继续读。
下一章会解释一件 很多人没想到的事 。
第3章 AI时代:为什么老办法突然不够了
因为企业真正开始拿来用的, 不再只是表里的数据了 。
现在被送进模型、送进知识库、送进 RAG 的,越来越多是这些东西:
合同、制度、邮件、纪要、FAQ、方案、图纸、代码、音视频。
它们有一个共同点: 不是天然按字段排好的 。
你不能像管理订单表那样管理一份PDF。你也不能像检查手机号格式那样检查一段会议纪要。
过去你主要在管"值"。现在你还要开始管"意义"。
这就是AI时代最关键的变化:数据质量,开始从"字段正确"升级成"机器可用"。
很多企业的问题就出在这里。
它们以为自己已经有数据质量体系了——规则平台有,扫描任务有,质量报表也有。
但当AI上来之后,问题还是一堆。
因为它们的质量体系主要是为 报表引擎 设计的,不是为 检索系统和大模型 设计的。
报表引擎需要的是结构化正确。大模型需要的是语义可消费。这是两回事。
第4章 AI时代的数据质量,分成五层
如果还用"准确、完整、一致"去硬讲AI时代的问题,会越讲越乱。
更好的方式是 直接换一个框架 。
第1层:源数据质量
这是底座。
值对不对、该有的有没有、多系统是否一致、数据是不是最新、有没有重复。就是前面讲的 经典六维度 。
这一层没做好,后面别谈。你喂进去的源头就错了,后面所有智能化都会越跑越偏。
第2层:表示质量
这层很多企业以前根本没当成"数据质量"。但现在 必须算 。
同一份信息,有没有被正确地表达出来。
扫描件太歪。OCR把"不得"识别成"得"。表格跨页后结构断了。标题和正文没分开。页眉页脚被当成正文灌进去了。
这时候问题不是"知识错了",而是"知识没有被正确表示"。人读原文可能还能看懂,机器不一定。
第3层:语义质量
AI时代 最容易出问题 的一层。
一份文档原文完全正确。但如果切分方式不对,语义就可能已经坏了。
"原则"在一个 chunk 里,"例外条款"被切到另一个chunk里。模型只看见原则,没看见例外。最后给出一个看似正确、其实错误的回答。
原文错了吗?没错。系统答错了吗?答错了。
问题出在语义质量——内容有没有完整保留原意,上下文关系有没有被切断。
第4层:检索质量
很多团队一遇到AI问答不准,第一反应是模型不行。其实大量问题 发生在模型调用之前 。
知识没找到。找到的不是最相关的。找到的是旧版本。找到的是不该被当前用户看到的内容。
"库里明明有,为什么答不出来?"——因为"有"不等于"能命中"。"能命中"也不等于"命中的是对的那份"。
第5层:来源与追溯质量
AI时代特别关键,但过去 几乎没人管 的一层。
答案从哪来?引用的是哪份文件?是不是最新版本?谁上传的?谁审核的?出了问题能不能追责?
今天越来越多的业务会反过来问:这句话依据哪份制度?这份制度是今年新版还是去年旧版?
如果答不上来,业务就不会信。 信任起不来,AI就推不动 。
五层合起来
源数据质量 → 表示质量 → 语义质量 → 检索质量 → 来源与追溯质量。
少一层都可能翻车。
过去的数据质量,回答的是"这条记录能不能算"。今天的数据质量,还要回答"这段知识能不能被机器正确消费"。

第5章 "原文没错,AI还是答错"——到底怎么回事
这是最值得讲透的一件事。
文档明明是对的。制度明明已经上传。知识库明明也建了。
为什么AI还是答错?
因为从"原文"到"答案",中间隔着一整条链路:
文档被上传 → 系统做解析识别 → 内容被切分 → 建立索引 → 用户提问 → 系统先检索再生成 → 答案返回。
这条链路里, 任何一步坏了 ,最后都表现成"AI又答错了"。
但"AI答错"只是表象。真正的根因可能完全不同:
- OCR错了 → 是 表示质量
- 切分错了 → 是 语义质量
- 检索命中旧版本 → 是 检索质量
- 答案没带出处 → 是 追溯质量
- 源数据本身就错了 → 那才是 源数据质量
你会发现一件重要的事:
AI时代的数据质量,不再只是检查数据本身,还要检查数据进入机器链路后的表现。
这也是为什么今天如果还只盯空值率、重复率、规则通过率, 很多问题根本看不见 。
一个值得记住的判断
这句话可以直接拿去开会:
很多AI项目的"效果不好",本质上不是模型问题,而是数据质量的衡量单位变了。
以前用"记录"做质量单位——管一行数据的对错。
现在得用"知识对象"和"使用链路"做质量单位——管一段知识的表示、切分、检索、引用是否正确。
不是数据质量突然变复杂了。是你过去管的,只是它里面最容易量化、最适合放进报表的那部分。
第6章 数据质量最大的敌人不是技术
业务说"我们数据没问题"——因为承认数据有问题就等于承认 自己流程有问题 。这不是认知问题,是利益问题。
IT说是业务的事,业务说是IT的事,老板说是数据团队的事——项目在 踢皮球中死掉 。
"AI分类必须100%准确才能上线"——连注册会计师审计都有重大性水平。追求100%不是严谨, 是逃避 。
正确的做法
- 明确数据Owner到人
- 从最痛的场景开始,而不是搞全量
- 接受机器80%+人工20%的 协作模式
技术能看见问题,但只有业务能定义标准,只有管理层能分配资源,只有制度能保证持续运营。缺了任何一个,技术再好也是摆设。
第7章 企业到底该怎么做
别一上来就喊"建设AI时代全栈数据质量体系"。这句话很大,也很空。
第一,先守住老底座
主数据、交易数据、指标数据的准确性、完整性、一致性、时效性, 继续做 。
不要因为都在谈AI就把传统数据质量当旧时代遗产。底座没了,AI只会放大混乱。
第二,把非结构化数据正式纳入质量视野
过去很多企业默认"表里的数据才叫数据,文档邮件算附件"。
对AI来说,真正被消费的往往不是表, 是内容 。
第三,把质量规则从"字段规则"扩成"链路规则"
传统规则是"不能为空""格式必须正确"。
现在还要加:
- 扫描质量不达标的不入库
- 没有版本号的制度不参与检索
- 标题层级丢失的长文档需要重处理
- 高风险回答必须附 原文引用
第四,别只看进库质量,要看使用质量
很多企业只看"入湖入仓"时的质量评分,但业务真正痛的发生在"用的时候"。
你要开始盯:
- 问答命中率
- 正确引用率
- 旧版本命中率
- 文档可解析率
厂商话术一句话拆穿
- "一站式数据质量平台":只做了检测和清洗,治理流程和权责得你自己建。
- "AI驱动的智能数据质量":多了些异常检测ML模型,核心还是规则引擎。
- "数据质量开箱即用":通用规则覆盖30%,剩下70%要针对业务写。
- "数据质量管理解决方案":工具≠管理,没人定标准没人跟进就是摆设。
第8章 速查表:以后AI答错了,先查这张表
这个可以 直接拿去开会 。

以后再有人一句话说"AI效果不好",先追问一句:到底是哪一层质量出了问题?这句话一问出来,讨论才真正开始。
成熟度自评表(建议截图保存)

从L0往下勾,第一个勾不上的就是当前层次。
大多数企业在L1-L2之间。
最后收一下
如果现在有人再问你:数据质量是什么?
你可以这样回答:
数据质量,不是数据看起来干不干净,而是它在具体用途下能不能持续、稳定、可信地产生正确结果。在传统系统里,它主要体现为准确、完整、一致、及时。在AI系统里,它还要进一步体现为可读、可切、可找、可引、可追溯。
过去的数据质量,主要服务报表。今天的数据质量, 开始直接服务AI 。
这就是为什么"字段都对了"AI还是可能答错——你管对了旧问题,不等于你已经管住了新问题。
三句开会能直接用的话
对老板说:
"如果我们继续只用字段质量理解数据质量,AI项目会不断出现'原文没错、答案还错'的问题,业务信任起不来。"
对业务说:
"你们觉得AI不稳定,未必是模型不行,很多时候是知识没被正确组织、正确检索和正确引用。"
对技术团队说:
"这件事不是多塞点文档进去就行,核心是把文档变成可解析、可切分、可检索、可追溯的 知识对象 。"
你在实际工作中遇到过"数据看起来干净,AI效果还是差"的情况吗?
最后排查下来根因在哪一层?
欢迎在评论区聊聊你的排查经验。
在报表时代,数据质量回答的是"能不能算"。在AI时代,它开始回答"能不能信"。管不住这条线的企业,AI做得越猛,翻车越狠。
|