数据清洗五步法:AI审计的地基工程
为什么数据清洗是AI审计的第一课?
我见过太多团队兴冲冲地上了AI工具,把一堆数据丢进去,满怀期待地等结果。AI跑完了,吐出一份异常清单,大家一看——全是”假警报”。
为什么?因为数据本身就是脏的,AI被骗了。
模型是厨师,数据是食材。食材烂了,厨师手艺再好也炒不出好菜。
五步清洗法
Step A:数据体检(Profiling)
先不要急着分析,先给数据做个”体检”:
- 总共多少行?空值率多少?重复率多少?
- 哪些字段是文字、哪些是数字、哪些是日期?
- 有没有主键候选?
- 分类字段有多少个不同的值?(如果”部门”字段有300个不同值,大概率有问题)
Step B:定义数据契约(Data Contract)
明确告诉自己(和AI):“我需要的数据长什么样”:
- 必填字段清单
- 类型约束:金额必须是数字,日期必须是日期
- 范围规则:金额≥0,日期在合理区间内
- 唯一性要求
Step C:标准化(Standardization)
把”各说各话”的数据统一成一种格式:
- 金额:统一为浮点数+币种(1,200.00 / ¥1200 / 1200元 → 1200.00 CNY)
- 日期:统一为 datetime + 时区
- 地名/机构名:统一映射表
- 文本:去空格、去不可见字符、统一大小写
Step D:去重与对齐(Dedup & Alignment)
- 完全重复行 vs 业务重复(同一笔单导入了两次)
- 合并前后的行数验证——合完行数变了,一定要查清楚为什么
- 关键字段覆盖率检查
Step E:可追溯性(Traceability)
这一步大多数人跳过了,但在审计场景里至关重要:
- 保留原始数据(raw)
- 输出清洗后数据(clean)
- 输出问题行清单(bad_rows)+ 每行的问题原因
- 输出清洗日志(每一步做了什么变更)
不可追溯 = 不可用于审计报告。
完整版包含每一步的代码示例和实操检查清单。持续更新中。