请教会采集的大佬一个图文采集的问题

2020-04-27 08:27:00 +08:00
 dengwen168

目标网页是长这样的:

this is a paragraph

image

this is a paragraph

image

this is a paragraph

我现在想要将这个网页采集下来,将所有的文字翻译成中文,然后文章中的图片还要保存原来的位置不变, 翻译这块调用接口可以解决,我现在的问题是如何翻译后还能使图片在文章原来的位置。

请问各位大佬有什么好的办法?谢谢。。

1609 次点击
所在节点    Python
5 条回复
Bunian
2020-04-27 08:32:49 +08:00
老办法,替换法
dengwen168
2020-04-27 08:39:23 +08:00
@Bunian 我没搞过呀,将图片替换掉么?怎么放回去:)
locoz
2020-04-27 08:43:23 +08:00
最简单粗暴的办法就是翻译完一段文字就换回去,这样换的就都是文字了
daozhihun
2020-04-27 08:44:25 +08:00
你说的采集是什么意思。。。
加入你是用爬虫爬下来,你提取某个段落的时候肯定是 p 或者 div 之类的标签里吧,翻译以后替换一下不就好了
dengwen168
2020-04-27 08:51:51 +08:00
@locoz 嗯 ,这个方法我也想到过,不过想知道有没有更好的解决方案。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/666459

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX