scrapy 的 CrawlSpider 爬取全站，遇到干扰怎么破?

2017-06-02 09:23:55 +08:00

zhangzixu

比如我要爬取的网站是 https://xxx.com,在 log 信息中看到得到的网页有很多 https://xxx.com?mdtp=30&p=8+++++++++++++++++++ 而且+号是不断的增加的，网站返回的是同一个页面。使用 linkExtractor 去过滤吗？

3614 次点击

所在节点

8 条回复

prasanta

2017-06-02 09:28:07 +08:00

把它处理掉

KeepPro

2017-06-02 09:29:54 +08:00

这说明人家并不想让你爬

734506700qq

2017-06-02 09:36:25 +08:00

啥网站啊，这么溜，这个反爬虫机制真 low

zhangzixu

2017-06-02 09:54:24 +08:00

@734506700qq 高校的，哈哈

cranelee13

2017-06-02 10:21:46 +08:00

用正则过滤链接吧，很好解决。

bonfy

2017-06-02 11:46:11 +08:00

又见 xxx.com ...

zhangzixu

2017-06-02 12:02:14 +08:00

@bonfy 真的有内容呀！

luxux

2018-05-29 16:25:17 +08:00

上班打开 xxx.com,旁边连个妹子，让我情以何堪

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/365370

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX