全站抓取爬虫,如何确定抓全了一个站点?

2017-02-04 11:22:02 +08:00
 ospider

比如优酷这种比较大的站点,只需要确定 url 都有就行

5252 次点击
所在节点    Python
5 条回复
pathletboy
2017-02-04 11:40:31 +08:00
如果是一个频繁更新的站点,你永远抓不全。
scnace
2017-02-04 11:59:05 +08:00
这个怎么可能知道有没有抓全 除非你事先知道他全部的目录结构…
est
2017-02-04 12:16:04 +08:00
没法确定。

按道理说,优酷内部其实都不知道某一个时刻精确有多少视频。因为是分布式的。每个节点随时都在删除,新增。
rekulas
2017-02-04 12:32:58 +08:00
跟 google 检索量对比一下,判断抓取比例
yanzixuan
2017-02-06 10:51:41 +08:00
一个网页对应动态的 URL 的时候怎么办呢?
你只能根据内容来计算啊

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/337997

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX