对于传统格式文档, ai coding 工具都是怎么理解的

2 月 9 日
 tomato9

比如 excel 写的接口文档,pdf 格式的流程图,word 的需求文档,有哪些 ai coding 工具是可以读取的,我试了下 claude code 是可以的读取,但我又没配置多模态大模型,这里面读取的原理是啥呢

1760 次点击
所在节点    程序员
10 条回复
visper
2 月 9 日
也许他们自己的上传文件接口先用工具把文件内容读取转成了 markdown 和图片之类的呢?
javalaw2010
2 月 9 日
excel/pdf/word 这类文件的读写的技术很成熟了,随便什么语言都能找到对应的 SDK 库,集成进工具里面写成 function 给大模型调用就好了。
gorvey
2 月 9 日
通过 MCP 和 SKILL,所有的 ai 都能接入使用
gorvey
2 月 9 日
tomato9
2 月 9 日
@gorvey 我主要好奇 pdf 这种里面有流程图的要如何通过 mcp 理解,感觉还是需要多模态能力呀
tomato9
2 月 9 日
@javalaw2010 那可能 word 和 excel 这种已经是内嵌到 claude code 里面的基础能力了
gorvey
2 月 9 日
@tomato9 #5 要看源格式,如果是代码写的那就不需要视觉,如果本来就是图片那就需要了
gorvey
2 月 9 日
@tomato9 #5 https://skillsmp.com/zh/skills/anthropics-skills-skills-pdf-skill-md 你可以看下这个 skill 是怎么写的,如何理解 pdf 里面的内容,这里面都写的很清楚
tomato9
2 月 9 日
@gorvey 谢谢大佬
aisk
2 月 9 日
claude 的模型好像时支持视觉的: https://platform.claude.com/docs/zh-CN/build-with-claude/vision

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1191702

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX