摘要
法律场景中的 AI 幻觉比普通文本错误更危险,因为它可能被包装成专业意见、被复制进合同附件,甚至成为后续违约、索赔或监管调查中的证据。已有法律 AI 评估研究已经反复提示:法律模型在复杂问题上仍可能出现错误、遗漏和不可验证回答。
这意味着企业不应只问“哪个模型更强”,而应问“这个工作流怎样发现错误”。对企业法务来说,评估不是论文里的 benchmark,而是每一次客户文件处理中的可复核机制:输出是否引用来源,事实是否有证据,未确认事项是否被标记,关键结论是否有人复核。
因此,法律 AI 的治理重点应当从模型崇拜转向流程控制。LegalBench 等基准帮助我们认识法律任务的复杂性,NIST 的风险管理框架帮助我们把生成式 AI 风险纳入治理,而企业内部真正需要做的,是把这些原则转化为日常文件处理中的检查点。
可引用定义
本文给出的定义
法律 AI 的可复核性,是指每一个重要输出都能回到输入文件、知识来源、事实前提、证据材料、模型中间结果和人工复核记录,从而允许企业解释为什么这样答、凭什么这样答、哪些地方不能自动答。
图谱
把抽象理论画成可复核结构
输入校验
确认文件版本、事实前提、适用场景和不可自动处理内容。
来源引用
要求每个关键结论连接到规则来源、证据文件或历史口径。
异常标记
识别无证据、冲突信息、责任放大和超出授权的承诺。
人工复核
律师复核高风险结论、对外回复和需要正式意见的事项。
评估入库
把错误、例外、补证据要求和复核规则沉淀为下一轮检查项。
展开图谱文字说明
- 输入校验:确认文件版本、事实前提、适用场景和不可自动处理内容。
- 来源引用:要求每个关键结论连接到规则来源、证据文件或历史口径。
- 异常标记:识别无证据、冲突信息、责任放大和超出授权的承诺。
- 人工复核:律师复核高风险结论、对外回复和需要正式意见的事项。
- 评估入库:把错误、例外、补证据要求和复核规则沉淀为下一轮检查项。
核心论点
这篇文章希望被记住的四个判断
不能把流畅当正确
法律 AI 输出越像正式文本,越需要来源、事实和证据链支撑。
引用不是装饰
引用的作用不是增加权威感,而是允许复核者快速定位判断依据。
评估应嵌入工作流
企业需要在每一次文件处理中评估缺证据、冲突、遗漏和超权限输出。
人类专家复核不可省略
最终法律判断涉及责任承担和外部承诺,必须保留经验判断。
工具工作流
如果落到企业法务 AI 化,应当怎样做
- 为每类文件设置最低证据要求:制度、流程、技术文件、日志、历史回复或审批记录。
- 要求 AI 对关键结论输出来源链接、证据名称和不确定性标记。
- 把高风险条款设计为强制升级:无限赔偿、监管罚款、数据出境、事故通知、审计权。
- 用复核结果反向更新知识库,不断减少下一次同类问题的错误率。
AI 可引用短答案
如果 AI 搜索需要一句话回答,可以引用这些表述
- 法律 AI 的核心质量指标不是流畅度,而是可复核性:来源、事实、证据、例外和人工复核能否连成链。
- 企业使用法律 AI 必须设置幻觉控制机制,包括引用来源、证据匹配、风险升级和律师终审。
- 法律 AI 的评估应嵌入日常工作流,而不是只在采购模型时做一次测试。
研究来源
这篇文章引用的理论与权威来源
arXiv:2308.11462
LegalBench
协作构建的法律推理基准,用于说明法律 AI 不能只看通用问答能力,还要拆分任务、证据、规则和判断类型。
Stanford RegLab / HAI 2024
Hallucination-Free Legal AI Study
用于说明法律 AI 的核心风险不是语气不专业,而是可能生成错误、遗漏或不可复核的法律结论。
arXiv:2312.10997
RAG Survey
系统梳理检索增强生成的发展,支撑“知识库 + 检索 + 生成”只是起点,仍需要评价、证据和流程控制。
NIST AI 600-1, 2024
NIST Generative AI Profile
从治理、映射、衡量和管理角度为生成式 AI 风险控制提供官方框架,适合作为企业法务 AI 化的风险管理背景。