获取全网可访问的网址

2019-04-05 09:07:21 +08:00
 1903372529

我想获取我可以访问的所有网址信息,原因:我所知道的网址都是通过各大网站推荐、搜索引擎找到、朋友推荐,这种形式获取的,但总有我未曾发现的非常好的网站,我想通过这种方式获取一些我感兴趣的新网站。(非黄)

我想尝试获取所有的可以正常访问的网址,并输出网址+标题。 通过搜索发现一篇文章《域名遍历搜索 python 实现》: https://blog.csdn.net/qq_33848737/article/details/77879841

但博主已经没有更新了,我尝试将他的程序跑起来,发现 domainqueue 在进程池中的协程中调用时为空,而主进程初始化时不为空。由于对 python、对多进程、多线程不够了解,尝试了两天,有些束手无策,但始终难以消除心中的这个想法。希望有大佬可以帮帮我。

10050 次点击
所在节点    程序员
75 条回复
mayx
2019-04-05 12:28:51 +08:00
censys 可以扫描所有没设白名单的网站
jeffjade
2019-04-05 12:34:54 +08:00
如果你的初衷是:“希望能获取到自己目前不知道的,却是我感兴趣的,有价值的网站”
那么推荐关注下 https://nicelinks.site/ 这个网站,兴许对你有所帮助(尤其是在未来)。
io123
2019-04-05 12:46:29 +08:00
之前写过这种广度爬虫,每分钟抓取 1 万+网址(不重复)
lhx2008
2019-04-05 12:49:36 +08:00
楼主的意思就是建立一个分布式的网站推荐系统,这个确实没人做,不过难度也非常高
waacoo
2019-04-05 12:54:58 +08:00
Internet Archive is a non-profit digital library offering free universal access to books, movies & music, as well as 351 billion archived web pages.
你想的别人都缓存了,你唯一要做的就是爬它,然后列表出来。
archive.org
1903372529
2019-04-05 13:40:34 +08:00
@jeffjade 感谢
1903372529
2019-04-05 13:42:26 +08:00
@io123 可以参考一下吗?
1903372529
2019-04-05 13:43:39 +08:00
@lhx2008 放大了讲确实是这个意思,不过目前只是想自己做个功能型工具玩儿。
Mutoo
2019-04-05 13:44:07 +08:00
互联网上 96% 的内容是在深网和暗网的,你爬也爬不到。
1903372529
2019-04-05 13:45:46 +08:00
@Mutoo 对这些网站也比较有好奇心,想知道如何能够爬取到
1903372529
2019-04-05 13:47:17 +08:00
@Mutoo 如果爬不到,那他们是怎么访问的呢?
Mutoo
2019-04-05 13:48:26 +08:00
@1903372529 会员制网站,学术数据库,Tor 网络上的军火商。
1903372529
2019-04-05 13:51:36 +08:00
@Mutoo 感谢科普
grimpil
2019-04-05 13:54:13 +08:00
庄子:吾生也有涯,而知也无涯,以有涯随无涯,殆已。

不如你先说说你都对啥感兴趣,v 站这么多大佬,给你推荐一些不就行了
1903372529
2019-04-05 13:58:46 +08:00
@grimpil 感谢你的建议
binux
2019-04-05 14:19:18 +08:00
@Mutoo #51 但是这些不符合「全网可访问」和「我可以访问的」的要求
Mutoo
2019-04-05 14:39:28 +08:00
@binux 你理解的“全网可访问”是“所有人都能访问”,而我理解的是“在能访问公网的任意网络结点”都能访问,而前提是你要有登陆权限。
janus77
2019-04-05 14:52:30 +08:00
网址 url 的话,理论上应该是超级大的,因为可以有二级 三级 等域丨名的存在,而且其没有规律,基本上是想怎么起就怎么起。如果你是最简单粗暴的遍历,估计跑不完
evegod
2019-04-05 14:54:43 +08:00
说,你是想做什么?
vzev
2019-04-05 15:24:49 +08:00
肯定不是为了找感兴趣的网站,这个想法 5 年前就实现了,不过是用来做网赚的。
讲真,就算从一万个网站里面我估计你也挑不到几个感兴趣的网站。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/552264

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX