V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
通过以下 Referral 链接购买 DigitalOcean 主机,你将可以帮助 V2EX 持续发展
DigitalOcean - SSD Cloud Servers
airqj
V2EX  ›  VPS

准备买几台 VPS 来爬知乎数据,兄弟们有可以推荐的吗

  •  1
     
  •   airqj · 2016-05-29 17:38:58 +08:00 · 4630 次点击
    这是一个创建于 2860 天前的主题,其中的信息可能已经有所发展或是发生改变。

    单台机器跑的太慢
    打算买几台一个月的 vps,有这方面的经验的兄弟说一下哪家比较好
    :)

    66 条回复    2016-05-30 18:36:21 +08:00
    tadtung
        1
    tadtung  
       2016-05-29 17:52:33 +08:00
    国内的话 BAT 3 家首选,,,也可以独服,,不过价格。。。。
    剩下景安等也可以。。。

    国外就很多选择了也便宜。。。。采集、爬虫的话可以用国外 vps ,,最好可以上独服。。
    aljun
        2
    aljun  
       2016-05-29 18:10:25 +08:00 via iPhone
    我爬过⋯⋯其实慢主要是知乎网速和他的 server 太慢⋯⋯
    zoudeze
        3
    zoudeze  
       2016-05-29 18:12:36 +08:00 via iPhone
    家里的百兆宽带不是更好?
    airqj
        4
    airqj  
    OP
       2016-05-29 18:14:59 +08:00
    @zoudeze
    其实最主要是怕知乎封 IP
    否则自己的电脑同时开十几个进程爬都没问题....
    airqj
        5
    airqj  
    OP
       2016-05-29 18:15:39 +08:00
    @tadtung 多谢兄弟 我查一下啥叫独服....
    airqj
        6
    airqj  
    OP
       2016-05-29 18:16:10 +08:00
    @aljun 是的 不知道知乎的反爬虫策略是什么
    弄不好就被封了
    ljcarsenal
        7
    ljcarsenal  
       2016-05-29 18:32:38 +08:00
    爬到的数据干嘛用呢
    UnisandK
        8
    UnisandK  
       2016-05-29 18:34:29 +08:00
    弄个 ADSL 拨号的吧
    K 总的 20IP 小鸡可以去 loc 看看能不能收到
    Ouyangan
        9
    Ouyangan  
       2016-05-29 18:35:02 +08:00
    上次四个小时,才爬了三十万用户数据 , 我的代码太渣,哈哈哈哈
    Ouyangan
        10
    Ouyangan  
       2016-05-29 18:35:09 +08:00
    第二天就被封了
    TheCure
        11
    TheCure  
       2016-05-29 18:37:41 +08:00
    为啥不试试百度开放云 BCE 浮动 IP 被封了释放换一个就好了(逃
    zoudeze
        12
    zoudeze  
       2016-05-29 18:47:34 +08:00 via iPhone
    @airqj 断开 pppoe 再连上不就好了? (你总不能把一个地区的都封掉吧
    realpg
        13
    realpg  
       2016-05-29 19:07:10 +08:00
    服务器不封 IP
    自己电脑封 IP

    你这啥逻辑?
    @airqj
    Goheing
        14
    Goheing  
       2016-05-29 19:19:35 +08:00
    开 Tor 爬~~
    YUX
        15
    YUX  
       2016-05-29 19:22:40 +08:00 via iPhone
    自己维护一个代理池吧 网上那么多 free proxy 定时拿下来挨个测一下 把速度快的挑出来给你的知乎爬虫用
    zbz
        16
    zbz  
       2016-05-29 20:01:22 +08:00
    @YUX 这些代理基本被用成渣了,质量太低下~
    airqj
        17
    airqj  
    OP
       2016-05-29 20:12:31 +08:00
    @realpg 电脑出口的 IP 不都是同一个吗?
    不知道你从哪里得出自己电脑封 IP 的结论的。。。
    airqj
        18
    airqj  
    OP
       2016-05-29 20:13:33 +08:00
    @zoudeze 这方法不现实
    airqj
        19
    airqj  
    OP
       2016-05-29 20:17:09 +08:00
    @YUX 那些免费弄不好爬取某个用户的数据还没爬玩
    就不能用了
    airqj
        20
    airqj  
    OP
       2016-05-29 20:17:44 +08:00
    @Ouyangan 拿用户的什么数据?
    四个小时三十万 感觉很不错了
    McContax
        21
    McContax  
       2016-05-29 20:35:54 +08:00   ❤️ 1
    @airqj 突然想起你这么做的话,准备动态 IP 会好点吧,静态被 ban 岂不是完了~~~~
    hunk
        22
    hunk  
       2016-05-29 20:40:53 +08:00   ❤️ 1
    爬用户啥信息拿来用?好奇,分享下思路呗
    suuuch
        23
    suuuch  
       2016-05-29 20:54:46 +08:00   ❤️ 1
    这是上分布式的节奏啊?。先看看你的采集程序能不能吧你的带宽打满吧。要是可以。可以买代理 IP ,几块钱可以买到大把可以用的 IP ,写个测速的程序。就搞定了。
    mogging
        24
    mogging  
       2016-05-29 20:57:29 +08:00   ❤️ 1
    要是爬数据拿来玩就太浪费啊
    aljun
        25
    aljun  
       2016-05-29 21:03:15 +08:00
    @airqj 上个月,亲耳听到知乎的开发人员说它们基本没做饭爬虫,真的
    Ouyangan
        26
    Ouyangan  
       2016-05-29 21:23:04 +08:00   ❤️ 1
    @airqj 用户名 , 拿到用户名什么信息都可以拿到了.
    airqj
        27
    airqj  
    OP
       2016-05-29 21:25:29 +08:00   ❤️ 1
    @McContax 一般家庭用户的 IP,除非路由器重新拨号,否则相应的公网 IP 不会变的
    不知道兄弟说的动态 Ip 是代理吗?
    airqj
        28
    airqj  
    OP
       2016-05-29 21:25:55 +08:00   ❤️ 1
    @hunk 做一个简单的推荐系统
    airqj
        29
    airqj  
    OP
       2016-05-29 21:27:30 +08:00   ❤️ 1
    @suuuch 把带宽跑满那肯定是不行的
    请求太频繁也不合适
    airqj
        30
    airqj  
    OP
       2016-05-29 21:32:39 +08:00   ❤️ 1
    @aljun 反爬虫措施肯定有的
    我的账号就被封过封过 提示登陆太频繁
    miyuki
        31
    miyuki  
       2016-05-29 21:44:03 +08:00 via Android   ❤️ 1
    hunk
        32
    hunk  
       2016-05-29 21:52:12 +08:00   ❤️ 1
    @airqj 家庭宽带,可以换 IP ,毕竟慢,不适合大数据量。我估计说的是 IP 库,前段时间做爬虫,看到这个网站 http://www.kuaidaili.com ,不是广告,我没用过,只是做备用研究下。
    付费,实时提供测试可用的代理,专业的事让专业的人去做。
    hunk
        33
    hunk  
       2016-05-29 21:52:59 +08:00   ❤️ 1
    @airqj 知乎是得考虑账号问题,目测无法自动注册账号,只能人工注册,关注如何解决,又是一问题。
    McContax
        34
    McContax  
       2016-05-29 21:53:32 +08:00   ❤️ 1
    @airqj 额,貌似我这边是定时换 IP 的,重拨也不行,之前忘记哪间 VPS 提供商搞这种东西,你连进去是一个固定 IP 来的,但是出网就是一个民用动态 IP (而且 ip 切换速度比常用民用宽带快很多),之前是在找那些抗投诉的时候无意间找到的,不过价格很感人就是了。。。
    bravecarrot
        35
    bravecarrot  
       2016-05-29 21:54:12 +08:00 via iPhone   ❤️ 1
    知乎应该是有反爬虫的,看他们好像还特意招人做这个事

    有那种专门提供代理的网站,付费的,一天提供 xx 个 xx 元。
    把代理弄进数据库,加个时间戳,一段时间换一个。爬虫把 ua , cookie 都带上 应该能爬好多吧
    lbp0200
        36
    lbp0200  
       2016-05-29 22:08:36 +08:00 via Android   ❤️ 1
    用长城宽带,封 IP ?整个长城用户都封掉?
    airqj
        37
    airqj  
    OP
       2016-05-29 22:10:00 +08:00   ❤️ 1
    @hunk 之前有看到过一个 站大爷 的代理网站
    也是收费的,不知道有没有兄弟试过
    airqj
        38
    airqj  
    OP
       2016-05-29 22:11:26 +08:00   ❤️ 1
    @lbp0200 如果真的是按 IP 来反爬虫的话,按理来说会把同一个出口 IP 的用户封掉
    Daddy
        39
    Daddy  
       2016-05-29 22:30:58 +08:00   ❤️ 1
    独立服务器, 8G 内存、 2X2TB 硬盘, 160 块 /月起,再套上代理 IP 好了, http://y0.cn/dufu
    roychan
        40
    roychan  
       2016-05-29 22:42:45 +08:00   ❤️ 1
    可以考虑买一点国内 ADSL 的 VPS , IP 地址都很多的。
    如果要买国外的服务器,不建议用 VPS ,一般他们的 TOS 都很严格。建议上独立服务器,推荐楼上的 Dacentec 和 Quadranet...
    lbp0200
        41
    lbp0200  
       2016-05-29 23:14:37 +08:00 via Android   ❤️ 1
    @airqj 对,所以不可能按照 IP 来封。如果不做违法事,家里的网足够了。
    rainbo
        42
    rainbo  
       2016-05-29 23:34:52 +08:00   ❤️ 1
    taobao search adsl vps
    qqmishi
        43
    qqmishi  
       2016-05-30 03:28:07 +08:00 via Android   ❤️ 1
    @aljun 实测知乎日报和知乎收藏这两个不用登陆的,用爬虫遍历没被封,,,
    airqj
        44
    airqj  
    OP
       2016-05-30 09:22:12 +08:00   ❤️ 1
    @Daddy
    @roychan
    多谢兄弟
    25 刀这配置感觉很合适啊,就是没看待带宽是多少。。。。
    也不知道北卡访问国内速度如何
    evilic
        45
    evilic  
       2016-05-30 09:32:56 +08:00   ❤️ 1
    不知道爬知乎数据有什么用……
    xiaotaoqi
        46
    xiaotaoqi  
       2016-05-30 09:33:00 +08:00   ❤️ 1
    外包:

    现需网络爬虫脚本,基本功能如下:

    1 、可以爬取阿里巴巴、淘宝、美团、大众点评四家平台上的企业详细信息。

    2 、具体信息如下:

    ( 1 )公司档案:——基本信息:企业黄页(基本信息、经营状况、联系方式)

    ——交易信用信息:交易情况、服务情况、动态评分;

    ( 2 )供应产品分类:价格、详细描述、图片、成交量;

    ( 3 )公司信息:卖家旺旺号、满意度、交易勋章、地区

    注:详细需求文档请联系本人。



    QQ:574632347
    liqingcan
        47
    liqingcan  
       2016-05-30 09:40:57 +08:00 via Android   ❤️ 1
    @evilic 同不知道他爬知乎有什么有用的数据,
    airqj
        48
    airqj  
    OP
       2016-05-30 10:17:59 +08:00   ❤️ 1
    @evilic
    @liqingcan
    做个推荐系统
    chenwen
        49
    chenwen  
       2016-05-30 10:22:56 +08:00   ❤️ 1
    问下楼主呗, 知乎恶心的验证码咋整
    liqingcan
        50
    liqingcan  
       2016-05-30 10:25:19 +08:00 via Android   ❤️ 1
    @airqj 推荐什么?
    xzcaosl
        51
    xzcaosl  
       2016-05-30 10:32:04 +08:00   ❤️ 1
    有魄力,具体爬那些数据,有这么大的存储空间吗
    airqj
        52
    airqj  
    OP
       2016-05-30 10:43:47 +08:00   ❤️ 1
    @xzcaosl
    我目前抓取的是用户回答的问题,提问和点赞的答案
    一个用户多的话也就两百多 k 存储肯定不是问题
    airqj
        53
    airqj  
    OP
       2016-05-30 10:45:06 +08:00   ❤️ 1
    @chenwen 你可以到 github 上搜索相关的爬虫
    我也是用人家的爬虫 自己写了脚本爬需要的数据
    gkiwi
        54
    gkiwi  
       2016-05-30 13:05:10 +08:00   ❤️ 1
    都被你们爬成 502 了。。。正看着呢!!
    miaosu
        55
    miaosu  
       2016-05-30 13:33:53 +08:00   ❤️ 1
    我是知乎的,你邮箱多少,准备收律师函
    Daddy
        56
    Daddy  
       2016-05-30 14:47:41 +08:00
    @airqj 宽带是 G 口,但实质瓶颈是你代理 IP 的质量,加代理肯定得打折。
    足够你用了, 4T 硬盘,不怕你数据多, 8G 内存,不怕你程序烂。
    独立服务器最好的, VPS 都会在 CPU 与宽带有所限制,不能长时间占用 CPU 与宽带的,不适合爬虫。
    wudikua
        57
    wudikua  
       2016-05-30 15:02:06 +08:00   ❤️ 1
    兄弟,你头像和我在公司内网的头像一样。。好巧啊
    CharlesWu
        58
    CharlesWu  
       2016-05-30 15:37:41 +08:00   ❤️ 1
    来来,这几天才做的 代理 IP 可用度 40%左右
    http://www.uoolo.com/AppTask/GetProxyIP.ashx?num=100
    dxk611
        59
    dxk611  
       2016-05-30 15:39:59 +08:00
    为什么我开 VPN 上不了知乎
    whq731
        60
    whq731  
       2016-05-30 16:18:29 +08:00
    知乎有个系统叫悟空,就是专门干反爬,删广告这些的。
    我自己之前不知道,随便跑了十多个线程爬截图,结果运行几次后就被封了,所有结果都是一个缓存的页面
    Saay
        61
    Saay  
       2016-05-30 16:27:22 +08:00   ❤️ 1
    @dxk611 也碰到过这个问题, 挂着 vpn 的时候, 都是看 google 缓存
    menc
        62
    menc  
       2016-05-30 16:45:25 +08:00   ❤️ 1
    果然还是看工作啊,在搜狗工作的时候,我们组就拥有脱了敏的知乎全部数据,包括问答,用户, tag 等等等等,可惜太坚守职业操守,我一点也没有 down 下来。
    cszhiyue
        63
    cszhiyue  
       2016-05-30 17:31:45 +08:00
    如果换了微博.账号频繁更换 ip 不直接封了?
    suuuch
        64
    suuuch  
       2016-05-30 18:02:04 +08:00
    @airqj 既然贷款没跑满,可以先买几块钱的代理 IP 试试。。不是很建议中小规模的爬虫上分布式,维护成本较高。
    airqj
        65
    airqj  
    OP
       2016-05-30 18:34:42 +08:00
    @suuuch 哪有爬虫把带宽跑满的....
    而且知乎的服务器也不会这么快响应啊.....
    qcloud
        66
    qcloud  
       2016-05-30 18:36:21 +08:00
    爬那些干嘛,爬一些女优大片多好
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5344 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 09:03 · PVG 17:03 · LAX 02:03 · JFK 05:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.