获取网站名和域名的对应关系方案

2013-10-23 12:32:12 +08:00
 xdays
input: www.baidu.com
output: www.baidu.com ,百度

目前我所考虑的找到的方法:

1. http://data.alexa.com/data?cli=10&dat=snbamz&url=www.baidu.com ,通过这个借口确实能拿到不少信息,但似乎没有中文的网站名

2. 爬网页从title标签里提取,这个难点在于:如果把“百度一下,你就知道”这类的字符串总结为百度

3. http://www.alexa.cn/index.php?url=www.baidu.com 这个最有价值,但是遇到两点问题:
3.1 网站有防护,我刚爬了30多个域名,就被“Access Denied”
3.2 数据的权威性,不知道这个网站是哪家的

4. http://aws.amazon.com/cn/awis/ ,这个基本是1的收费版本,提供的信息应该差不多。


大家还有其他的方案么?
4364 次点击
所在节点    Python
10 条回复
bshu
2013-10-23 12:39:46 +08:00
国内的正规网站去遍历 icp 备案数据库
qiayue
2013-10-23 12:56:26 +08:00
看你的具体需求了,如果不是需要全网所有网站的数据,而是只需要一部分有名/有流量的网站的话,手工去填都很快,数据也准确。

“世界上 95% 的网站每天只有不到30个IP的流量,里面还包括了自己及亲戚朋友的访问”
mengzhuo
2013-10-23 12:57:46 +08:00
whois信息里没有?
shiny
2013-10-23 12:58:33 +08:00
爬网址导航或者开放目录。
dongbeta
2013-10-23 13:00:45 +08:00
收集一大批网址导航站,用爬虫去爬链接提取 A 标签的相关信息。
xdays
2013-10-23 17:37:01 +08:00
@shiny @dongbeta 这种方式都是通过爬虫构建一个数据库,这个库很难全面。
xdays
2013-10-23 17:41:33 +08:00
@mengzhuo whois信息里没有中文网站名
xdays
2013-10-23 17:43:52 +08:00
@qiayue 量还还是挺大的,需要通过技术手段解决。
xdays
2013-10-23 17:45:47 +08:00
@bshu 有推荐库的没?
xiya
2013-12-25 17:09:29 +08:00
爬一些备案信息,定义关键字呢?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/86590

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX