[开源] 基于 Tornado 和 Scrapy 的高性能代理池

2018-06-20 19:15:58 +08:00
 kmz

花一周的时间初步完成了这个项目…… Github 上好像没有几个(我只找到了一个= =)把 Tornado 和 Scrapy 结合到一起的项目

支持的特性包括:

项目地址: https://github.com/Karmenzind/fp-server

关于代理可用性

爬虫爬取代理时会先检测可用性(包括速度和匿名性),检测完毕后才会入库,不可用的直接抛弃,所以可以安心使用。至于代理性能,我后面会对检测方式进行优化。

关于可存储代理数目

我暂时没有做限制,写这个文章的时候,我本地有一万个活动(可用的)代理。我没有继续爬,因为目前代理来源只有四个,潜力有限。假如有人用的话,后面我会持续增加代理来源。

在 Scrapy 项目中使用

我写了一个可以直接用在 Scrapy 项目里的 middleware。后面有空我会写更多示例代码。

环境要求

项目是在 Archlinux 上开发的,已经测试通过的环境如下:

代码暂时不支持直接在 Windows 上运行,我已經打包好了 Docker 镜像,Windows 用户可以使用 Docker 部署。

推荐 Unix/Linux 用户也使用 Docker 部署,这样是最简单的。

更详细的介绍和使用方法见项目 README

欢迎提 Bug 和意见给我。

3381 次点击
所在节点    分享创造
21 条回复
kmz
2018-06-26 11:01:39 +08:00
@xiaozizayang 学习了!~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/464495

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX