V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
CyrilC
V2EX  ›  外包

求网站数据实时抓取方案

  •  
  •   CyrilC · 2016-02-23 11:38:59 +08:00 · 366 次点击
    这是一个创建于 3002 天前的主题,其中的信息可能已经有所发展或是发生改变。

    求有网站数据实时抓取方案的大神,数据来源是关于菠菜的网站,有兴趣可以留下 money/day 和 联系方式,项目只包含抓取数据(文字和视频连接)到数据库部分,语言不限,由衷感谢

    9 条回复    2016-02-24 17:28:50 +08:00
    xingzhi
        1
    xingzhi  
       2016-02-23 11:56:18 +08:00
    做过多个小说网站更新的监控, 也抓取&监控 google play & Appstore 多国家的全量数据。
    有兴趣,薪酬得按项目难度和工作量来评估。
    联系: lvyaojia # gmail
    ppto
        2
    ppto  
       2016-02-23 12:04:21 +08:00
    微信 ppto86
    crayonyi
        3
    crayonyi  
       2016-02-23 12:04:54 +08:00
    我写过一个分布式的可配置的爬虫,爬过图片站、视频站、咨询站,支持爬取 api 和网页。
    数据可以存取在 mysql 、 mongdb 多种数据库。也支持爬取速率、代理、浏览器壳等配置。
    这是数据展示的站点: http://py.bowenpay.com/

    爬虫的源代码: https://github.com/yijingping/unicrawler

    有兴趣可以在 github 上 follow 我,加微信。
    pyengwoei
        4
    pyengwoei  
       2016-02-23 14:54:14 +08:00
    你是要抓取什么菠菜网站的数据啦, 是球 还是视频的?
    有些菠菜网站是不能注册会员的只能在代理哪里去开账户
    我前段时间恰恰帮人做了 一个项目,是抓取的利己娱乐城 www.sbobet.com 和 IBC www.maxbet.com
    你是需要这样子的数据吗
    东南亚的很多菠菜小公司 我都给他们提供数据
    具体的 你加我 QQ : 64063823
    http://prntscr.com/a6ts0s
    pyengwoei
        5
    pyengwoei  
       2016-02-23 15:00:25 +08:00
    滚球实时抓取更新滚球 ,可以多家网站同时抓取,然后把数据按照配置百分比再组合,比如 A 网站你设置取 80% B 网站设置 20% 那这个新赔率就是 A 网站赔率的 80 +B 网站赔率的 20%
    sunchen
        6
    sunchen  
       2016-02-23 22:36:23 +08:00
    @xingzhi 悄悄告诉你 app store 的数据可以直接下载,不需要爬啊
    xingzhi
        7
    xingzhi  
       2016-02-23 23:44:59 +08:00 via iPad
    @sunchen 我抓的是不同国家的全量 app 数据和所有用户评论
    你悄悄告诉我这些数据的下载地址吧 :)
    CyrilC
        9
    CyrilC  
    OP
       2016-02-24 17:28:50 +08:00
    = =各位大神,已有人接手,但看你們的討論好像沒我啥事
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3246 人在线   最高记录 6547   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 14:38 · PVG 22:38 · LAX 07:38 · JFK 10:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.