请问有没有这样的爬虫代码范例

实现爬虫功能的同时，也进行了以下处理：
1、修改了 HTTP 请求头，每次爬取时随机选择一个使用
2、将真实 IP 地址进行了屏蔽，每次爬取时从 IP 池中选择一个使用
3、初始访问页面是第一页，根据页面上的选择页控件，爬完当前页后接着爬取下一页直至全部爬取完毕
4、爬取的数据存储到数据库
5、最好能用到 PhantomJS 这个浏览器——这个条件不强求，但是有的话最好

请问有满足上述条件的爬虫代码范例可供学习么？
非常感谢！

saximi

2017-09-22 21:33:10 +08:00

@toono 太奇怪了，您爬虫主页是 https: //www.douban.com/group/explore，我无论是用 IE 还是 CHROME 浏览器访问这个页面，打开页面源码后都找不到“ topic-content ”这个字符串呢。
我用 FIDDLER 工具查看访问 https: //www.douban.com/group/explore 时的报文，点击 COOKIE 按钮时提示并无 COOKIE，是在不明白。

toono

2017-09-25 09:16:30 +08:00

@saximi topic-content 是在帖子里面的，https: //www.douban.com/group/explore 是帖子列表。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/392367

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.