爬网站, url 只有 8 位是变动的。

2016-01-18 15:20:39 +08:00
 814084764

最近想爬一个网站, url 中只有 8 位决定了网页的内容。
这 8 位为小写字母和数字的混合。数学上算有 36^8 种可能性,大约是 282 万亿种组合。
每秒爬 20 次,也要一千多年才能爬完。。。。。

怎么爬??

3238 次点击
所在节点    编程
22 条回复
abelyao
2016-01-18 15:33:25 +08:00
找出列表来爬… 哪有自己猜测的…
zhujinliang
2016-01-18 15:37:06 +08:00
分布式爬,有 1000 个节点的话就只需 1 年多了哦耶
function007
2016-01-18 15:41:52 +08:00
第一次见着爬虫靠穷举的
ethego
2016-01-18 15:44:08 +08:00
当然是爬超链接了,穷举爬到何年何月去
est
2016-01-18 15:44:10 +08:00
我想到的一个防止穷举的办法 /t/235554
weer0026
2016-01-18 15:44:57 +08:00
= = 像一楼说的你先找入口,用入口处获取的地址去爬啊。
dong3580
2016-01-18 16:13:14 +08:00
@est
我看到了我回复的,哈哈。
我不信你无数据列表,有列表爬虫肯定先爬列表。
rock_cloud
2016-01-18 16:15:41 +08:00
我一学长,某次做实验需要数据,懒得写爬虫,然后把人家数据库黑了。。。
话说反爬虫的方案中如果给爬虫返回错误的数据有何利弊呢?一直想这么做。。。
est
2016-01-18 16:17:27 +08:00
@dong3580 列表里有一个 margin-left: -100000px 的超链接你敢爬就立马封 IP 。 :doge:
abelyao
2016-01-18 16:33:31 +08:00
@est 这个方法赞… 马上引入……
abelyao
2016-01-18 16:34:37 +08:00
@rock_cloud 忘了以前在哪里看到过 amazon 的网站就是这样对爬虫的,让你正常爬,但爬多了后面的数据全是假的,包括价格什么的……
Tink
2016-01-18 16:42:13 +08:00
有可能楼主并没有找到 list
814084764
2016-01-18 16:46:16 +08:00
@abelyao
@Tink
@weer0026
@function007

就是因为没有找到这个入口 list 。。所以才想穷举的。。。
abelyao
2016-01-18 16:48:45 +08:00
@814084764 那你可以看看这些 url 是不是某些有规律的数字、然后进行特定编码的(类似 base64 那样),或者你可以网上搜一下 微博、优酷 他们的 URL 编码方式,如果是完全无规律的,那就慢慢爬吧… 或者放出来大家帮你找 list 入口……
rock_cloud
2016-01-18 16:48:49 +08:00
@est 你这样不会把搜索引擎的爬虫封了么?
rock_cloud
2016-01-18 16:50:12 +08:00
@814084764 列表肯定是有的,或者是间接地列表。
如给没有一个逻辑上的列表,那么这个链接相当于没有入口,那么这个页面永远都不会被访问到。
est
2016-01-18 16:54:09 +08:00
@rock_cloud 搜索引擎 ip 是固定的。白名单即可。 :)
est
2016-01-18 16:55:20 +08:00
@abelyao 我记得 bing 就是这样。爬多了不会出错,搜索结果一律为空。
zpvip
2016-01-18 17:41:56 +08:00
@est 求白名单
dong3580
2016-01-18 18:53:51 +08:00
@est
你好狠,好狠,但是,搜索引擎会不会也被干掉?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/251601

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX