判决书脱敏裁判文书法律文书AI 脱敏

判决书脱敏怎么做?完整操作指南与工具推荐

律隐盾团队 ·

为什么判决书需要脱敏?

根据《最高人民法院关于人民法院在互联网公布裁判文书的规定》,裁判文书上网前必须隐去当事人的敏感信息。2024 年起,中国裁判文书网进一步收紧了公开范围,对当事人隐私保护提出了更高要求。

需要脱敏的信息包括:

  • 自然人姓名(可保留姓氏)
  • 身份证号码
  • 家庭住址、通讯地址
  • 手机号码、固定电话
  • 银行卡号、金融账户信息
  • 未成年人的全部信息
  • 其他可能识别特定个人的信息

手动脱敏的常见做法

传统做法是工作人员逐页阅读判决书,手动标注需要遮蔽的内容。这个过程有几个明显的痛点:

  1. 耗时巨大:一份 50 页的判决书,手动脱敏通常需要 2-4 小时
  2. 容易遗漏:人眼长时间阅读容易疲劳,尤其是身份证号、手机号这类数字串
  3. 标准不统一:不同人员对”哪些内容需要脱敏”理解可能不同
  4. 难以复检:脱敏完成后缺乏有效的质检手段

AI 自动脱敏的工作原理

AI 自动脱敏通过自然语言处理(NLP)技术,自动识别文档中的敏感实体:

命名实体识别(NER)

系统使用多策略检测能力识别法律文书中的敏感实体。以律隐盾当前版本为例,覆盖 23 类法律敏感要素:

类别包含的实体类型
身份识别姓名、身份证号、手机号、邮箱、地址、车牌号
金融账户银行卡号、支付账号、财产金额
通信网络微信号、IP 地址、网络账号
案件组织案件编号、法院名称、机构名称、统一社会信用代码

处理流程

  1. 文档导入:支持 PDF、DOCX、图片格式
  2. 自动识别:AI 模型扫描全文,标注所有敏感实体
  3. 人工校对:系统展示识别结果,支持增删改、按文件切换规则
  4. 预览导出:按星号、占位或遮蔽等方式处理,预览后导出脱敏文档

扫描件判决书怎么处理?

很多判决书是纸质扫描件(PDF 或图片),无法直接提取文字。处理流程需要增加 OCR(光学字符识别)步骤:

  1. OCR 引擎识别扫描件中的文字
  2. 将识别结果与原始图像对齐
  3. AI 模型在识别文本中检测敏感信息
  4. 根据定位信息,在原始图像上遮蔽对应区域

律隐盾内置了 OCR 引擎,可以自动检测文档类型,对扫描件自动启用 OCR 处理流程,无需额外配置。

常见脱敏规则

脱敏规则通常分为两种模式:

精确替换(Map 模式)

将原文中的特定文本替换为指定内容。例如:

  • “张三丰” → “张某某”
  • “320106199001011234” → “320106********1234”

正则遮蔽(Mask 模式)

使用正则表达式匹配并统一处理。例如:

  • 手机号 \d{11} → 保留前 3 后 4 位
  • 身份证号 \d{17}[\dXx] → 保留前 6 后 4 位
  • 银行卡号 \d{16,19} → 保留后 4 位

如何选择脱敏工具?

如果你需要处理的判决书数量较多,或者对脱敏的一致性和复核效率有较高要求,建议使用专业的 AI 脱敏工具。

选择时重点关注:

  1. 识别与复核能力:尤其是对中文姓名、身份证号等关键信息的检测和校对
  2. 离线处理能力:判决书涉及案件信息,数据不应上传到外部服务器
  3. 扫描件支持:确保 OCR 识别精度足够
  4. 规则灵活性:是否支持自定义脱敏规则
  5. 价格合理性:按使用需求选择合适方案

查看律隐盾与其他工具的详细对比 →