获取全网可访问的网址

2019-04-05 09:07:21 +08:00
 1903372529

我想获取我可以访问的所有网址信息,原因:我所知道的网址都是通过各大网站推荐、搜索引擎找到、朋友推荐,这种形式获取的,但总有我未曾发现的非常好的网站,我想通过这种方式获取一些我感兴趣的新网站。(非黄)

我想尝试获取所有的可以正常访问的网址,并输出网址+标题。 通过搜索发现一篇文章《域名遍历搜索 python 实现》: https://blog.csdn.net/qq_33848737/article/details/77879841

但博主已经没有更新了,我尝试将他的程序跑起来,发现 domainqueue 在进程池中的协程中调用时为空,而主进程初始化时不为空。由于对 python、对多进程、多线程不够了解,尝试了两天,有些束手无策,但始终难以消除心中的这个想法。希望有大佬可以帮帮我。

10068 次点击
所在节点    程序员
75 条回复
BFDZ
2019-04-05 15:48:05 +08:00
首先明确你的兴趣方向,然后主要几个找圈内网站的方法:
1、搜索引擎:谷歌、百度等
2、找兴趣相关的论坛、贴吧,国外有 reddit
3、加 QQ 群、微信群、tg 群结识圈内人士
nanaw
2019-04-05 16:56:33 +08:00
@Mutoo 扯毛蛋啊,你当这里是微信公众号。就暗网那一点点路由咋能吹成这样呢?暗网站点能有表网的千分之一就不错了
sigup
2019-04-05 17:50:37 +08:00
https://censys.io/data
这里有全球 80,443 端口的 http get 结果
sigup
2019-04-05 17:55:27 +08:00
censys 好像收费了,下面这个还没收费,而且更全一些
https://opendata.rapid7.com/sonar.http/
Moani
2019-04-05 20:32:51 +08:00
@1903372529 emmmmm,根据你的要求,在对对象一无所知的情况下,判断该域名是否可以访问?那你直接访问该域名根据返回结果就可以判断。
一种情况,你想对沙漠中的每一粒沙子都了解?(新开网站,新注册域名)
或者,你想知道,沙漠里与你相关的沙子?或者可能相关的沙子?
那么,大数据与人工智能?根据你的行为判断,而推送你想要的。
Mutoo
2019-04-05 20:46:44 +08:00
@nanaw 数据引用自 The Dark Net isn't what you think. It's actually key to our privacy | Alex Winter | TEDxMidAtlantic
<amp-youtube data-videoid="luvthTjC0OI" layout="responsive" width="480" height="270"></amp-youtube>&ab_channel=TEDxTalks
2 分 57 秒
iacyl
2019-04-05 21:06:57 +08:00
大家不要被楼主骗了,楼主其实是抓取全网消息来训练的人工智能。
qqor
2019-04-05 21:45:37 +08:00
@1903372529 都是小偷或者僵尸战
eluotao
2019-04-06 00:32:24 +08:00
告诉你一个最简单的,便利所有中文博客,还有 csdn,博客园,等个人网站的社区,抓取这些网站的所有文章,还有评论,从这些数据里就能筛选出基本全网所有已知,公开,有影响力的网站信息了!

比你遍历域名靠谱多了
eluotao
2019-04-06 00:33:32 +08:00
他们都有分享域名和链接,统统取得域名和标题。保存起来,去除重复
quake0day
2019-04-06 01:28:33 +08:00
当然是通过和你兴趣类似的人收藏的书签了
推荐试下 https://pinboard.in/
flynaj
2019-04-06 11:17:57 +08:00
想找什么东西直接 Google 就行,如果你找到东西经常在那个网站上,那个网站就是你感兴趣的
zhzbql
2019-04-06 11:50:40 +08:00
楼主你是多有钱,这么大量的数据光是买硬盘的钱都得上千万
Northxw
2019-04-06 20:54:40 +08:00
如果你有上亿美元,先买等价的云服务器,然后编写足够强健的爬虫,爬虫没日没夜爬取不下线...... 就这样,估计也搞不完,就算你的预期目标是中国版图内的 URL,你也得先剔除掉这些网页中的外网站点。 总之,虽然在理论上可以实现,但是现实不允许你这样做。因为真的真的真的真的没有资本...................
opengps
2019-04-06 21:15:04 +08:00
有些时候不太好,会把暗网各种不适合宣传的内容暴露出来
也有暴露不出来的网站,比如我的某个业务网站,域名只靠 hosts 解析使用来避免被公网工具扫描到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/552264

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX