关于爬虫的疑问

2016-10-13 06:31:56 +08:00
 supman
如果网页 A B C D E 是相护有超链接的 那么可以很随意的爬到所有内容 可是如果 网页 Z 是一个单独的页面, 要怎么才能抓得到呢?

(就像新搭建的网站,如果不主动提交,并且不做外链,搜索引擎是怎么找到的呢?)
1993 次点击
所在节点    问与答
13 条回复
v9ox
2016-10-13 06:49:29 +08:00
猜测: 爬虫会去遍历 DNS Zone?
binux
2016-10-13 06:57:13 +08:00
如果知道 Z 存在,那么就能抓到
如果不知道 Z 存在,那么你怎么证明 Z 真实存在呢?

所以问题不在于怎么抓到,而在于怎么知道 Z 存在。
why1
2016-10-13 07:18:29 +08:00
你猜
aeshfawre
2016-10-13 07:28:16 +08:00
这不就是 google 在探索的问题么,他也在想办法解决这个问题。
ITOutsider
2016-10-13 07:37:29 +08:00
robots.txt
不让抓的不抓
其他都抓
21grams
2016-10-13 07:42:42 +08:00
所以就抓不到啊,谁告诉你一定能抓到 z 的
BMW
2016-10-13 08:11:40 +08:00
想多了
tscat
2016-10-13 08:48:26 +08:00
如果一个链接整个互联网上都没有人知道。那就认为没有这个链接。
qiayue
2016-10-13 08:48:50 +08:00
有的网站,上线几年了,都在搜索引擎搜索不到,因为作者只是写给自己看,除了浏览器和作者等,没人知道这个网站的存在
pi1ot
2016-10-13 08:51:58 +08:00
360 有办法抓到
choury
2016-10-13 08:56:24 +08:00
@pi1ot 要有人用 360 浏览器才行
cyang
2016-10-13 09:43:14 +08:00
如果找到了,你该想一下是不是自己的浏览器或是电脑中的其他软件把自己的隐私泄露了。
pi1ot
2016-10-13 10:12:30 +08:00
@choury 用了 360 各个产品都可以吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/312382

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX