求用 Python 将 swf 格式的文件专成 pdf 或者图片的方法

2021-01-26 18:03:41 +08:00
 Fizzyi
swf 格式打开就是类似于 pdf 的,该网站是将 pdf 编译成了 swf 文件进行了展示,现在的需求是提取出里面的内容,现在的想法是先转成 pdf 或者图片 然后在提取里面的文字
2094 次点击
所在节点    Python
9 条回复
renmu123
2021-01-26 19:23:49 +08:00
swf 是 flash 的后缀名,我之前有段时间搞了好久,翻遍了各个语言都是没有找到类似的工具的,如果楼主找到了艾特我一下。原因可能是由于 flash 是个闭源的工具,因此没办法解析
kikikiabc
2021-01-26 19:32:07 +08:00
自动截屏
Pagliacii
2021-01-26 19:54:13 +08:00
之前写个一个解析 SWF 文件头的,你可以看看 SWF 文件格式规范,然后自己写个转换器

https://gist.github.com/Pagliacii/1bbb3953c6a7a8ed61f89e97d0ecf4a9
unnamedhao
2021-01-26 22:44:22 +08:00
swf 文件格式是开放的,可以导出图片,https://www.adobe.com/content/dam/acom/en/devnet/pdf/swf-file-format-spec.pdf
github 上应该也有 py 的解析库

https://github.com/timknip/pyswf
Fizzyi
2021-01-26 22:51:53 +08:00
@unnamedhao 第二个 pyswf 我也看了,但是似乎不支持 python3
pckillers
2021-01-27 09:28:20 +08:00
建议录制自动化操作+截屏+ocr 。
Fizzyi
2021-01-27 09:45:48 +08:00
@pckillers 现在的想法是获取到了 swf 文件,然后用 html 渲染出来截图然后 OCR 处理
Gloomyer
2021-01-27 10:50:22 +08:00
ffmpeg 啊?
julyclyde
2021-01-27 10:58:45 +08:00
猜测是一个 swf 做的 pdf reader
建议监听一下网络,看是不是有下载动作

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/748639

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX