V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zxmqwer
V2EX  ›  问与答

关于一个爬虫( or 采集)的问题

  •  
  •   zxmqwer · 2015-05-29 10:04:21 +08:00 · 1459 次点击
    这是一个创建于 3273 天前的主题,其中的信息可能已经有所发展或是发生改变。

    ∷需求:通过关键字从以下信息源提取每天新增加的内容(包括新发布的主题帖、新回复评论),通过机器学习可以过滤出一些优质信息每天四个时间段推送给客户端。

    ∷信息源:论坛、百度知道、百度贴吧、百度新闻、官方网站、QQ群、微信、新浪微博、QQ空间

    ∷问题:
    1、反复去那些信息源采集IP会被封
    2、要采集主题帖和回复,怎么确保采集的是最新信息
    3、每天四个时间点推送,相隔时间在三小时左右,怎么快速采集出最新的信息

    4、关键字数量有几千个,等于在同一信息源要搜索几千次,很容易封IP,工作量大,效率也低

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2772 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 15:54 · PVG 23:54 · LAX 08:54 · JFK 11:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.