有爬虫大佬吗?请教下

308 天前
 jack4536251

用 nodejs 爬网站,一爬多就失败。 有什么办法可以避免被反爬虫机制制约导致爬取失败?

1422 次点击
所在节点    问与答
17 条回复
herozzm
308 天前
ip 池,不同的 header
mineralsalt
308 天前
用 ip 池呗, 除此之外没有办法了, 但是这个很贵, 质量尚可的代理一天得二十多块, 我是配合自建 suqid 代理+购买 HTTP 代理减低费用的, 在家里,公司,云服务器都搭建了 squid
cherbim
308 天前
使用代理 IP 爬
0o0O0o0O0o
308 天前
反反爬一般都是具体问题具体分析,几乎不可能有通解。
ChicC
308 天前
频率,IP,鉴权
jack4536251
308 天前
@mineralsalt http 代理怎么买呢
mineralsalt
308 天前
@jack4536251 #6 有很多站, 我当初项目启动的时候花了几百块钱测试了各家站点, 便宜的贵的都试过, 首先免费的直接排除都是垃圾, 收费的大部分站点的质量都不好, 最终我选择了站大爷和蜻蜓的短效优质代理, 自己维护好代理池, 还是相当不错的, 站大爷我的动态可用代理数量可以维持在 130 个左右, 蜻蜓的 70 个左右
mineralsalt
308 天前
因为我的项目实时性要求特别高, 收费的代理也不稳定, 经常请求失败和请求超时, 所以自建 squid 是我的主力 ip 池, 而且也不用额外花钱, 用的家庭宽带和现有的服务器资源
pppguest3962
308 天前
@mineralsalt 我也想要池,也要实时性,最怕是花了钱买了大 Cache ,还要在本地做准确率不高的判断是否实时数据
wangyongbo
308 天前
https://www.webshare.io/ 2.99 美元 100 个 IP ,250G 流量。

https://smartproxy.com/ 这个 10 美元 100 个 IP ,50GB 流量。

我们用了这两个,主要爬 国外的网站。
mineralsalt
308 天前
@pppguest3962 #9 所以就得自己设计好爬虫的算法啊, 要智能分配 ip, 把爬取目标划分几个级别, 最重要的用最优质的 ip, HTTP 代理的稳定性是不可控的, 这个是没办法的
jack4536251
308 天前
@mineralsalt 怎么自建代理啊
mineralsalt
308 天前
@jack4536251 #12 自己搜 squid, 非常简单, centos 之类的系统一行命令就装好了
jack4536251
308 天前
@herozzm 这个 ip 是随便一个 ip 就行吗,比如我知道 www.baidu.com 这个网址的 ip ,我能拿这个 ip 当代理池的 IP 吗
jack4536251
308 天前
@cherbim 这个 ip 是随便一个 ip 就行吗,比如我知道 www.baidu.com 这个网址的 ip ,我能拿这个 ip 当代理池的 IP 吗
jack4536251
308 天前
@mineralsalt 这个 ip 是随便一个 ip 就行吗,比如我知道 www.baidu.com 这个网址的 ip ,我能拿这个 ip 当代理池的 IP 吗
herozzm
307 天前
你用不了 baidu 的 ip
@jack4536251

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/955252

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX