php curl 出现 couldn`t connect to host

2016-12-22 20:56:17 +08:00
 xiaoshangmin

最近在抓取一个网站内容大概有 400 多万条数据
用的是 php 的 curl 但是抓了大概 800 多条就出现 couldn`t connect to host
谷歌了下有说伪造 IP curl_setopt($ch,CURLOPT_HTTPHEADER,$header);
但是也是没用 出现这个错误时等过段时间又可以访问 不清楚这是为什么
还有棘手的问题就是网站没有接口 它使用 thinkphp 模板生成 只能抓网页
太频繁访问会有验证码 v 友有这方面的经验吗 求指教

2787 次点击
所在节点    PHP
6 条回复
mansur
2016-12-22 21:19:57 +08:00
挂代理
RE
2016-12-22 22:55:12 +08:00
如果手头上没有稳定的代理池,还是不建议上代理了,超时和不稳定等问题让你更头痛。
可以试试淘宝上的拨号 VPS ,随时换 IP ,可以日租,很便宜。
另外 400 多万总数、 800 条就挂,这样的频率用 PHP 抓取真的好吗…
xiaoshangmin
2016-12-22 23:04:59 +08:00
@RE 不用 php 是用 py 吗 求指教
RE
2016-12-22 23:17:16 +08:00
@xiaoshangmin
确实是有很多爬虫用 py ,不过… 我不会……
考虑到我上面说的那种 VPS ,一般都是 windows 系统,这种需求我习惯用 .net 写…
xiaoshangmin
2016-12-23 09:25:36 +08:00
@RE 那可以说下抓取的思路吗
wudanyang
2016-12-23 10:13:02 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/329512

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX