请问各位一个豆包大模型 API 的使用问题

3 天前
 mythjava

实际需求是有多个文件(pdf/doc/xlsx/...) 需要给大模型后来提问

豆包官方给出的方案是 https://www.volcengine.com/docs/82379/1284852

但是经我测试下来和给一般用户使用的豆包( https://www.doubao.com/chat/)解析效果并不一致, 有些文件根本解析不出来, 会漏掉很多内容

我的想法是将文档中的文字全部都提出出来, 然后将文本传给 API 来处理, 不知道是否可行.

我想请问各位正确的/通用的方式是怎么样的呢?

688 次点击
所在节点    问与答
3 条回复
gaobh
3 天前
mythjava
3 天前
@gaobh 我学习一下
hugowangnz
3 天前
我也在做这方面的工作,实际做下来的话,最佳方案是使用 textin 的 API (略贵,大概¥ 50/1000 页,但是效果最好)对文件进行解析后,作为上下文提供给豆包 API 。如果要求没那么高的话,各大云厂商都有文件解析服务,会稍微便宜一点,如果要求再低一点的话,例如都是纯文字内容,那直接用开源包像 pymupdf 这些解析就可以了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1158708

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX