获取全网可访问的网址

2019-04-05 09:07:21 +08:00
 1903372529

我想获取我可以访问的所有网址信息,原因:我所知道的网址都是通过各大网站推荐、搜索引擎找到、朋友推荐,这种形式获取的,但总有我未曾发现的非常好的网站,我想通过这种方式获取一些我感兴趣的新网站。(非黄)

我想尝试获取所有的可以正常访问的网址,并输出网址+标题。 通过搜索发现一篇文章《域名遍历搜索 python 实现》: https://blog.csdn.net/qq_33848737/article/details/77879841

但博主已经没有更新了,我尝试将他的程序跑起来,发现 domainqueue 在进程池中的协程中调用时为空,而主进程初始化时不为空。由于对 python、对多进程、多线程不够了解,尝试了两天,有些束手无策,但始终难以消除心中的这个想法。希望有大佬可以帮帮我。

10006 次点击
所在节点    程序员
75 条回复
Sylv
2019-04-05 09:09:34 +08:00
你这想法是大海捞针。
randyo
2019-04-05 09:15:46 +08:00
不如找找看哪里能查询到所有备案域名
1903372529
2019-04-05 09:15:46 +08:00
@Sylv 确实是大海捞针,但也许我捞的不是一根针呢?能捞多少捞多少呗。我的想法确实有些奇怪,我通过各种搜索引擎都没有搜到相关的资料,唯一找到一篇就是我在文中提到的哪章。
foskazs
2019-04-05 09:16:35 +08:00
太難實現了
1903372529
2019-04-05 09:16:54 +08:00
@randyo 我在想是不是可以通过遍历 IP 地址来实现?也许有些网站并没有域名?
1903372529
2019-04-05 09:17:35 +08:00
@foskazs 确实难以实现,不过我还是很渴望能做到这件事。
annoy1309
2019-04-05 09:20:54 +08:00
我觉得你需要科普一下具体定义
envylee
2019-04-05 09:23:21 +08:00
这不就是搜索引擎吗,不断抓取...
1903372529
2019-04-05 09:25:55 +08:00
@annoy1309 比如 www.baidu.comwww.v2ex.com ,在我不知道域名的情况下,我希望通过一个程序可以知道这些网址是可以访问的,并获取网站的标题。通过这种方式来发现一些新的网站,也许是我不知道的网站,也许是不出名的网站,也许是刚被搭建且没有做任何宣传的网站。
OscarUsingChen
2019-04-05 09:27:04 +08:00
1903372529
2019-04-05 09:27:16 +08:00
@envylee 大概是这个意思,想通过一个程序,列出一个列表,列表包含任何访问状态码为 200 的网站以及网站标题。
naiba
2019-04-05 09:28:33 +08:00
这个有的,有请楼下搞安全的大佬解答
1903372529
2019-04-05 09:33:03 +08:00
@OscarUsingChen 中国占有 7 亿,占有率很高呢。
XuJianHua
2019-04-05 09:43:41 +08:00
@naiba 这个 naiba 是非主流 naiba 吗
javashell
2019-04-05 09:45:22 +08:00
你这个想法和网络空间引擎相似,具体可以参考 fofa.so 撒旦 钟馗之眼等
binux
2019-04-05 09:49:33 +08:00
Google 只有不存在的网站搜索不到
blodside
2019-04-05 09:51:57 +08:00
比起去挨个爬不如直接解析 common crawl 的数据 dump
GeekCourse
2019-04-05 09:55:48 +08:00
谷歌都没有把全部网站给抓取下来。
如果按照域名遍历的话,你可以计算一下 5 位长度域名。
26 个字母+10 个数字+中横线=37
37 的 5 次方等于六千六百万
再乘以 200 个域名后缀,等于 138 亿

然后其他域名长度的要不要呢?
比如 6 位,7 位,8 位,9 位,10 位
你算算有多少个域名?
inhzus
2019-04-05 09:57:53 +08:00
那假如你获取到了所有的网站了,你想到怎么才能找到自己感兴趣的网站了吗?
Hk4Fun
2019-04-05 09:58:16 +08:00
可以试一下 zmap,据说能在一个小时内扫描整个公共互联网

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/552264

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX