获取全网可访问的网址

2019-04-05 09:07:21 +08:00
 1903372529

我想获取我可以访问的所有网址信息,原因:我所知道的网址都是通过各大网站推荐、搜索引擎找到、朋友推荐,这种形式获取的,但总有我未曾发现的非常好的网站,我想通过这种方式获取一些我感兴趣的新网站。(非黄)

我想尝试获取所有的可以正常访问的网址,并输出网址+标题。 通过搜索发现一篇文章《域名遍历搜索 python 实现》: https://blog.csdn.net/qq_33848737/article/details/77879841

但博主已经没有更新了,我尝试将他的程序跑起来,发现 domainqueue 在进程池中的协程中调用时为空,而主进程初始化时不为空。由于对 python、对多进程、多线程不够了解,尝试了两天,有些束手无策,但始终难以消除心中的这个想法。希望有大佬可以帮帮我。

10028 次点击
所在节点    程序员
75 条回复
heyeshuang
2019-04-05 10:00:36 +08:00
想起了一篇科幻小说:《诗云》。我用里面的一首诗来回答你吧:
啊啊啊啊啊啊啊
啊啊啊啊啊啊啊
啊啊啊啊啊啊啊
啊啊啊啊啊啊嗷
nfroot
2019-04-05 10:01:44 +08:00
@Hk4Fun 又不是每个网站都可以直接通过 IP 访问,遍历 IP 没有用的
tony601818
2019-04-05 10:04:36 +08:00
听说你想复制谷歌?
lzxgh621
2019-04-05 10:07:52 +08:00
域名最长 63 位 总共 63 个字符排列组合 遍历一遍
Ultraman
2019-04-05 10:08:55 +08:00
真找出来了你能一个一个看过去吗…?
nfroot
2019-04-05 10:09:39 +08:00
你要是觉得遍历 IP 肯定是行不通的,一个 IP 上面可能有一千个域名绑定了。
遍历域名更行不通,短域名有可能,稍微长一点的不现实。

不过并不是没有办法,每个域名后缀都有一个组织维护,你只需要找一批雇佣兵,一个个地点摸过去,让他们交出该后缀下所有域名。

也可以去找那些非权威 dns 服务器(就是类似 114.114.114.114 这种公共 dns,或者运营商 dns 服务器),他们也有列表,不过不是那么完整,不过一个个摸过去绝对可以得到大部分。
lzxgh621
2019-04-05 10:10:35 +08:00
@lzxgh621 #24 是 37
kerr92
2019-04-05 10:11:29 +08:00
咨询域名注册商?
nfroot
2019-04-05 10:11:46 +08:00
现在知道为什么谷歌要建立自己的公共 dns 服务器了吧?不管你是什么域名,都需要解析,只要经过了他家的 dns 服务器,就会留下记录,然后关门上爬虫。。。
nfroot
2019-04-05 10:13:57 +08:00
完成了第一步,接下来你就会遇到第二个问题。

选择困难症

这个也是谷歌的专业。。。


所以更简单的办法是,把谷歌收购了,你的问题全都解决了,这也是可行性最高的方式。
1903372529
2019-04-05 10:23:43 +08:00
@nfroot 你说的很有意思。
1903372529
2019-04-05 10:24:43 +08:00
@inhzus 确实是一个问题。
1903372529
2019-04-05 10:25:53 +08:00
@binux 你确定谷歌能搜索到所有的网站吗?
naiba
2019-04-05 10:34:37 +08:00
@XuJianHua 这个是非主流奶爸😉
jadec0der
2019-04-05 11:07:38 +08:00
无力吐槽,真是缘木求鱼…为什么不相信推荐,要自己去发现?你买书会不相信媒体的书店的推荐,拿出版总署的书号目录一本一本看吗
annoy1309
2019-04-05 11:33:03 +08:00
@Hk4Fun 印象中 zmap 那次一小时,用的可是对等的 10G 带宽。。。
foskazs
2019-04-05 11:34:48 +08:00
你是不是想开发个暗网……
qilishasha
2019-04-05 11:46:36 +08:00
可以通过 ip 为遍历基础,然后对每一个 ip 进行域名绑定反查,就可以有效的获得在用域名了。然后对每个域名的快照内容进行你感兴趣的筛选就可以了。
yingfengi
2019-04-05 12:12:12 +08:00
关键词:钟馗之眼

但是你也得有关键词啊。。。不然难道你遍历所有域名?那还有二级域名呢,你怎么办。
yingfengi
2019-04-05 12:13:26 +08:00
@lzxgh621 二级域名,三级域名,四五六七八九十级域名怎么办。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/552264

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX