请教一下,如何批量获取公开的企业信息?(企业黄页信息)

2013-12-29 06:21:21 +08:00
 zzfwusa
大家好,目前公司在做一个企业黄页系统,信息源目前是人工录入,
请问如果从网络上快速获取公开的企业信息?
本人目前的想法是基于nutch搭建一个小型的搜索引擎来搜索,不知道是否可行?
请各位高手不吝赐教~~
4365 次点击
所在节点    程序员
6 条回复
zzfwusa
2013-12-29 06:30:36 +08:00
大家好,目前公司在做一个企业黄页系统,信息源目前是人工录入,进度较慢,
所以想利用网络快速获取大量相关企业信息 (公开且合法的信息,如所在行业,电话,地址等等)
请问基于何种架构及工具可以快速实现?
本人目前的想法是基于nutch搭建一个小型的搜索引擎来搜索,不知道是否可行?
请各位高手不吝赐教~~
richiefans
2013-12-29 06:44:38 +08:00
应该是找到目标站点 定向抓取吧

python有个爬虫框架 Scrapy
dong3580
2013-12-29 09:29:18 +08:00
请求工商部门的网站抓取。不过你要是批量恶意这种行为算不算违法,小心请你喝茶。
xxwar
2013-12-29 10:50:35 +08:00
你可以抓阿里巴巴或者慧聪网或者。。。。。。。很多很多类似的企业黄页网站

或者花钱买数据,别人抓好现成的。

这种黄页网站基本是滥大街了,不知道你们公司要再做一个干吗。
yylzcom
2013-12-30 11:36:38 +08:00
用火车采集器,很容易上手
dbas
2014-01-01 22:23:38 +08:00
我也正在收集中,我手上才200W....

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/94915

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX