关于一个爬虫( or 采集)的问题

2015-05-29 10:04:21 +08:00
 zxmqwer

∷需求:通过关键字从以下信息源提取每天新增加的内容(包括新发布的主题帖、新回复评论),通过机器学习可以过滤出一些优质信息每天四个时间段推送给客户端。

∷信息源:论坛、百度知道、百度贴吧、百度新闻、官方网站、QQ群、微信、新浪微博、QQ空间

∷问题:
1、反复去那些信息源采集IP会被封
2、要采集主题帖和回复,怎么确保采集的是最新信息
3、每天四个时间点推送,相隔时间在三小时左右,怎么快速采集出最新的信息

4、关键字数量有几千个,等于在同一信息源要搜索几千次,很容易封IP,工作量大,效率也低

1461 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/194587

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX