获取 ProxyList

2017-12-04 18:23:31 +08:00
 noodlees

有的时候需要悄悄地爬取别人的网站上的东西,但是又不希望因为这个去购买爬虫 API (有的时候也不一定靠谱), 所以索性自己写爬虫,先去爬网上免费的代理 IP,然后筛选汇集成一个代理 IP 池。

然后我现在就简单的写了一个简单的获取代理 IP 的主体,希望能有更多人参与进来,大家一起有需要的就拿去用。

特性

- 使用方便,直接 npm require,直接获取 IP List.

- 增加其他在线代理网站方便,增加爬取网站就只需要写一个 js.

- 简单,不需要其他的操作,最后的结果就一个想法,最快,最好,最稳定的 **免费** IP List(希望如此吧 =.=)

缺陷

- 如何筛选出最快可用 IP 还没做,但是有一些想法,比如 ping 出最快的,或者是直接用爬取网站的排序

- 有的 IP 虽然速度很快但是无论访问哪个网址都会返回他的广告,这个要去掉。o(╯□╰)o

- 代理网站太少了,我现在就做了一个

如果有相同想法的可以一起来开发,nodejs 开发,依赖就一个 cheerio, 只需要写上 cheerio 的爬取方法就可以了。

欢迎 PR.

gayhub

如果已经有成熟的开源库,请一定告诉我,特别是直接就能拿到大量的高速,稳定的 Proxy IP List 的库,这样我就不用再重复造轮子了。

3523 次点击
所在节点    分享创造
10 条回复
golmic
2017-12-04 18:40:37 +08:00
cojing
2017-12-04 21:06:23 +08:00
http://mcbbs.online:3000/proxy/v1/all/json
noodlees
2017-12-05 09:18:20 +08:00
@cojing NICE, 这个很好,我先看看可用性
selfAccomplish
2017-12-05 09:21:36 +08:00
@cojing 这是你自己搭建的吗老哥
kohos
2017-12-05 15:14:26 +08:00
https://proxy.coderbusy.com/
这网站不错,就是没找到接口
cojing
2017-12-05 21:44:06 +08:00
@selfAccomplish 是的 自用 稳定性不强
skyfore
2017-12-06 10:04:56 +08:00
@kohos 可以自己去爬 ~
Soar360
2017-12-07 10:24:29 +08:00
@kohos 接口是有的,但是没敢公开。
selfAccomplish
2017-12-07 20:47:54 +08:00
@cojing 嗯嗯,谢谢了,省下自己搭建了;)
qsnow6
2017-12-20 10:36:00 +08:00
@Soar360 好使,谢谢

可以问下是怎么刮的吗?
用 nmap 扫再验证?

或许我也可以自己搞台 VPS 扫下,这样就不怕经常扒你,扒挂了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/411908

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX