微调托书文档信息提取的思路?

2024 年 3 月 14 日

cccclk

想要提取这种托书里面的字段,应该用什么模型去微调比较好.

可以拿来训练的样本量不会太多.拿过 paddlenlp 的 UIE-X 训练过,感觉效果不是会很好,对多行文本支持不怎么样.

有没有大佬能指点一下思路

1476 次点击

所在节点

4 条回复

lucifer69

2024 年 3 月 14 日

这种固定位置的印刷字体文档，不能直接 ocr （或者切割图片后各部分单独 ocr ）后提取吗？

cccclk

2024 年 3 月 14 日

@lucifer69 也不是完全固定的,需要适配多种奇奇怪怪的格式

musi

2024 年 3 月 14 日

带着位置信息一起发给 gpt ，让 gpt 处理

cccclk

2024 年 3 月 14 日

@musi 打算自己训练 GPT 成本太高也不稳定

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.