获取网站名和域名的对应关系方案

2013 年 10 月 23 日

xdays

input: www.baidu.com
output: www.baidu.com ，百度

目前我所考虑的找到的方法：

1. http://data.alexa.com/data?cli=10&dat=snbamz&url=www.baidu.com ，通过这个借口确实能拿到不少信息，但似乎没有中文的网站名

2. 爬网页从title标签里提取，这个难点在于：如果把“百度一下，你就知道”这类的字符串总结为百度

3. http://www.alexa.cn/index.php?url=www.baidu.com 这个最有价值，但是遇到两点问题：
3.1 网站有防护，我刚爬了30多个域名，就被“Access Denied”
3.2 数据的权威性，不知道这个网站是哪家的

4. http://aws.amazon.com/cn/awis/ ，这个基本是1的收费版本，提供的信息应该差不多。

大家还有其他的方案么？

5482 次点击

所在节点

Python

10 条回复

bshu

2013 年 10 月 23 日

国内的正规网站去遍历 icp 备案数据库

qiayue

2013 年 10 月 23 日

看你的具体需求了，如果不是需要全网所有网站的数据，而是只需要一部分有名/有流量的网站的话，手工去填都很快，数据也准确。

“世界上 95% 的网站每天只有不到30个IP的流量，里面还包括了自己及亲戚朋友的访问”

mengzhuo

2013 年 10 月 23 日

whois信息里没有？

shiny

2013 年 10 月 23 日

爬网址导航或者开放目录。

dongbeta

2013 年 10 月 23 日

收集一大批网址导航站，用爬虫去爬链接提取 A 标签的相关信息。

xdays

2013 年 10 月 23 日

@shiny @dongbeta 这种方式都是通过爬虫构建一个数据库，这个库很难全面。

xdays

2013 年 10 月 23 日

@mengzhuo whois信息里没有中文网站名

xdays

2013 年 10 月 23 日

@qiayue 量还还是挺大的，需要通过技术手段解决。

xdays

2013 年 10 月 23 日

@bshu 有推荐库的没？

xiya

2013 年 12 月 25 日

爬一些备案信息，定义关键字呢？

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/86590

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.