谁能告诉我完成这个任务大概的价格?——《实时抓取网页最新数据,处理并发布》

2012-12-07 17:25:24 +08:00
 shin
#实时抓取网页最新数据,处理并发布

##简介
我这里指的“数据采集”并非大规模地批量地缓慢地采集大量数据,而是监控似地实时采集最新的有效数据。
* “最新”意味着不需要老数据,而是目标网站所新增或更新的最新数据。
* “实时”意味着一旦目标网站有数据新增或更新,我们能第一时间(3秒内最佳)采集到。
* “有效”意味着需要对数据做去重处理。

##目标网页和数据
1. 目标网页示例
http://sz.58.com/longgang/waimaozhuanyuan/
http://sz.58.com/buji/waimaozhuanyuan/
……

2. 目标数据
* 数据内容:公司名字、地址、职位、对应网址

* 目标数据说明:
通过网页可以看到现有的大量数据,但这并非我们的目标。我们要的是目标网站实时新增和更新的数据。

* 数据规律:
通过观察可以知道,我们的目标数据一般都出现在网页的前排,并且,如果我们实时采集的话,基本不需要去采集第二页内容,因为最新增的数据基本不会出现到第二页。(其它网站的规律另说)

由于数据的更新规律,会有数据重复的情况,这就需要对数据进行去重处理,同一条数据我们只需要第一条(通过不同网站采集到的数据集中去重,“公司名字”字段一样即为重复数据)。

3. 其它
* 程序需要支持多任务和多用户模式
* 更多目标网页整理中
2930 次点击
所在节点    问与答
2 条回复
iloahz
2012-12-07 17:37:02 +08:00
第一个网页500,以后每个目标网页200
yegle
2012-12-08 04:16:25 +08:00
楼主手头有多少个IP?

楼上报价靠谱lol

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/54339

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX