怎么写个通用一点的抓取某网页的内容

2014-05-18 15:39:05 +08:00
 pythonee
经常碰到有人问我,他们想订阅某网站的更新,但是不是整个网页,而是某个区块,抓取后可以存为图片也可以格式化后丢到文件里,我知道用现在的库可以很方便的抓取一个网页和存为图片,主要的问题是怎么把某个div抓出来,而且通用点,因为站点有点多
5662 次点击
所在节点    程序员
21 条回复
RangerWolf
2014-05-23 17:49:18 +08:00
@imn1 感谢回复~ 还没有遇过这种场景。 之前写的一个网页爬虫,性能上可能电脑要好一点笔记本 i5 双核 + 4G内存。 Java + Jsoup css selector 感觉速度还行。Python的话没写过很正式的爬虫,没有经验了。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/113107

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX