请问有没有这样的爬虫代码范例

2017-09-20 20:54:18 +08:00
 saximi
实现爬虫功能的同时,也进行了以下处理:
1、修改了 HTTP 请求头,每次爬取时随机选择一个使用
2、将真实 IP 地址进行了屏蔽,每次爬取时从 IP 池中选择一个使用
3、初始访问页面是第一页,根据页面上的选择页控件,爬完当前页后接着爬取下一页直至全部爬取完毕
4、爬取的数据存储到数据库
5、最好能用到 PhantomJS 这个浏览器——这个条件不强求,但是有的话最好

请问有满足上述条件的爬虫代码范例可供学习么?
非常感谢!
2730 次点击
所在节点    Python
22 条回复
saximi
2017-09-22 21:33:10 +08:00
@toono 太奇怪了,您爬虫主页是 https: //www.douban.com/group/explore,我无论是用 IE 还是 CHROME 浏览器访问这个页面,打开页面源码后都找不到“ topic-content ”这个字符串呢。
我用 FIDDLER 工具查看访问 https: //www.douban.com/group/explore 时的报文,点击 COOKIE 按钮时提示并无 COOKIE,是在不明白。
toono
2017-09-25 09:16:30 +08:00
@saximi topic-content 是在帖子里面的,https: //www.douban.com/group/explore 是帖子列表。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/392367

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX