判决书脱敏裁判文书法律文书AI 脱敏
判决书脱敏怎么做?完整操作指南与工具推荐
律隐盾团队 ·
为什么判决书需要脱敏?
根据《最高人民法院关于人民法院在互联网公布裁判文书的规定》,裁判文书上网前必须隐去当事人的敏感信息。2024 年起,中国裁判文书网进一步收紧了公开范围,对当事人隐私保护提出了更高要求。
需要脱敏的信息包括:
- 自然人姓名(可保留姓氏)
- 身份证号码
- 家庭住址、通讯地址
- 手机号码、固定电话
- 银行卡号、金融账户信息
- 未成年人的全部信息
- 其他可能识别特定个人的信息
手动脱敏的常见做法
传统做法是工作人员逐页阅读判决书,手动标注需要遮蔽的内容。这个过程有几个明显的痛点:
- 耗时巨大:一份 50 页的判决书,手动脱敏通常需要 2-4 小时
- 容易遗漏:人眼长时间阅读容易疲劳,尤其是身份证号、手机号这类数字串
- 标准不统一:不同人员对”哪些内容需要脱敏”理解可能不同
- 难以复检:脱敏完成后缺乏有效的质检手段
AI 自动脱敏的工作原理
AI 自动脱敏通过自然语言处理(NLP)技术,自动识别文档中的敏感实体:
命名实体识别(NER)
系统使用多策略检测能力识别法律文书中的敏感实体。以律隐盾当前版本为例,覆盖 23 类法律敏感要素:
| 类别 | 包含的实体类型 |
|---|---|
| 身份识别 | 姓名、身份证号、手机号、邮箱、地址、车牌号 |
| 金融账户 | 银行卡号、支付账号、财产金额 |
| 通信网络 | 微信号、IP 地址、网络账号 |
| 案件组织 | 案件编号、法院名称、机构名称、统一社会信用代码 |
处理流程
- 文档导入:支持 PDF、DOCX、图片格式
- 自动识别:AI 模型扫描全文,标注所有敏感实体
- 人工校对:系统展示识别结果,支持增删改、按文件切换规则
- 预览导出:按星号、占位或遮蔽等方式处理,预览后导出脱敏文档
扫描件判决书怎么处理?
很多判决书是纸质扫描件(PDF 或图片),无法直接提取文字。处理流程需要增加 OCR(光学字符识别)步骤:
- OCR 引擎识别扫描件中的文字
- 将识别结果与原始图像对齐
- AI 模型在识别文本中检测敏感信息
- 根据定位信息,在原始图像上遮蔽对应区域
律隐盾内置了 OCR 引擎,可以自动检测文档类型,对扫描件自动启用 OCR 处理流程,无需额外配置。
常见脱敏规则
脱敏规则通常分为两种模式:
精确替换(Map 模式)
将原文中的特定文本替换为指定内容。例如:
- “张三丰” → “张某某”
- “320106199001011234” → “320106********1234”
正则遮蔽(Mask 模式)
使用正则表达式匹配并统一处理。例如:
- 手机号
\d{11}→ 保留前 3 后 4 位 - 身份证号
\d{17}[\dXx]→ 保留前 6 后 4 位 - 银行卡号
\d{16,19}→ 保留后 4 位
如何选择脱敏工具?
如果你需要处理的判决书数量较多,或者对脱敏的一致性和复核效率有较高要求,建议使用专业的 AI 脱敏工具。
选择时重点关注:
- 识别与复核能力:尤其是对中文姓名、身份证号等关键信息的检测和校对
- 离线处理能力:判决书涉及案件信息,数据不应上传到外部服务器
- 扫描件支持:确保 OCR 识别精度足够
- 规则灵活性:是否支持自定义脱敏规则
- 价格合理性:按使用需求选择合适方案