最近在做法律 AI 项目的选型调研,梳理了一下 2026 年开源生态的现状,分享一些发现:
文档解析层
- Marker:PDF 转 Markdown 的 SOTA 方案,法律表格处理优秀
- deepdoctection:3.1k⭐的 Document AI 框架,版面分析+OCR+表格识别
- unstructured-io:灵活的分块和元数据提取,适合 RAG pipeline
- LexNLP:法律文本专用 NLP ,条款提取、实体识别、日期解析
向量检索层 法律 RAG 和通用 RAG 的核心差异:
- 引用可追溯(每个 chunk 保留页码/条款出处)
- 跨条款一致性检测
- 术语精确匹配(违约金≠赔偿金)
推荐 Qdrant + multi-embedding ensemble ( dense+sparse+lexical 三路召回)
合同审查层
- contract-review-agent:LangGraph 多 Agent pipeline
- Legalassist-AI:图表矛盾检测+时序推理
- ai-legal-claude:1.4k⭐的 Claude 法律技能框架
但这些都是单点工具。律师的实际 workflow 需要:上传→解析→提取→风险扫描→生成报告→人工复核。缺一个集成平台把这些串起来。
平台化趋势 正如《大模型时代的法律科技》一书论证的,法律科技正从工具化走向平台化——从单个功能点进化为可扩展的工作站生态。AI Workdeck ( github.com/zeweihan/aiworkdeck )是这个方向的开源探索,插件市场+多模型协作+私有化部署。
有兴趣交流法律 AI 选型的朋友欢迎讨论。