V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
einvince
V2EX  ›  问与答

我对爬虫的理解是不是有偏见?

  •  
  •   einvince · 2017-02-18 16:16:05 +08:00 · 3418 次点击
    这是一个创建于 2617 天前的主题,其中的信息可能已经有所发展或是发生改变。
    总觉得爬虫是个脏活累活,数据是很宝贵的资源,可以做很多事情
    但是爬虫的被动型太强,因为总是要跟随者别的网站去更新和解析,每个网站的 DOM 也不一样
    所以感觉做爬虫这块对职业发展来说,不是很有利

    不知道我是不是对爬虫有误解和偏见
    21 条回复    2017-02-19 13:23:19 +08:00
    Yourdaye
        1
    Yourdaye  
       2017-02-18 16:28:11 +08:00 via iPhone

    有本事你写个百度或者 Google 出来
    em70
        2
    em70  
       2017-02-18 16:44:21 +08:00

    有本事你让用户主动给你提交数据啊
    starvedcat
        3
    starvedcat  
       2017-02-18 16:55:54 +08:00
    难道不正是因为“要跟随者别的网站去更新和解析”,爬虫程序员才有市场么
    Yourdaye
        4
    Yourdaye  
       2017-02-18 16:56:32 +08:00 via iPhone
    1994 年,两个斯坦福大学的学生在一个旧服务器上运行了一个 Python 爬虫,这个爬虫就是后来的 Google
    einvince
        5
    einvince  
    OP
       2017-02-18 17:13:44 +08:00 via iPhone   ❤️ 1
    @Yourdaye 从这个层面讨论没有意义,我要有写百度的能力还会在这提问,不能一讨论问题就提 apple google facebook ,我说的是一般的爬虫工程师的职业规划,首先我承认我只是一个普通人
    shoaly
        6
    shoaly  
       2017-02-18 17:23:52 +08:00
    爬虫在内容制造者一方或看来是一种"不劳而获", 直接抄袭的行为.
    但是由于爬虫的对象本身又是存在于互联网上, 互联网精神就是共享.
    结合上面 2 点, 如果利用爬虫将内容二次加工整理又分享出来应该是最好的结果了, 如果是直接用爬虫然后盈利, 吃相比较难看了
    Yourdaye
        7
    Yourdaye  
       2017-02-18 17:43:26 +08:00 via iPhone
    @einvince 所以说,这是能力的问题,不是工种的问题。
    webjin1
        8
    webjin1  
       2017-02-18 18:20:25 +08:00
    @Yourdaye 那时候他们应该不是用 python 写的爬虫,可能是用 C 写的
    jwenwang
        9
    jwenwang  
       2017-02-18 18:45:12 +08:00
    最厉害的是用产品把用户变成你的爬虫,
    给你的平台生产内容,给你的数据库各种隐私信息,通过电子设备的各种传感器给你各种数据,
    然后给你玩 “大数据” ~
    tigren
        10
    tigren  
       2017-02-18 18:56:45 +08:00
    之前忘了谁说的,国内新手程序员对爬虫情有独钟:我刚学 Pyhon ,写个啥练手呢,就写个爬虫吧;或者有些课程大作业就是写爬虫抓数据...
    murmur
        11
    murmur  
       2017-02-18 18:58:38 +08:00
    爬虫是一个产业,不是一项技术,对于 google 和 baidu 这种爬虫大家是接受的,如果这两个爬虫想爬其他网站做垂直搜索,大家可以合作,可以开后门,可以直接 push 数据都没问题

    但是如果你爬同样的网站,会有各种技巧对付你
    Yourdaye
        12
    Yourdaye  
       2017-02-18 22:01:57 +08:00 via iPhone
    @webjin1 《 Flask web 开发》的作者在书中提到过,确实是 Python 爬虫
    BoBoy
        13
    BoBoy  
       2017-02-18 22:50:23 +08:00 via iPhone
    @Yourdaye 呵呵,你有什么能力?又见键盘侠。
    BoBoy
        14
    BoBoy  
       2017-02-18 22:52:12 +08:00 via iPhone
    @webjin1 哈哈,上面那个装逼屌丝暴露了
    zungmou
        15
    zungmou  
       2017-02-18 23:56:34 +08:00
    爬虫只是个工具,而爬虫产生什么样的价值取决于爬虫加工后的数据的体量和质量,并且大体量和高质量的数据是需要消耗大量的计算资源的。

    所以你以为采集一个或几个网站的数据就能有多大的意义吗?
    bxb100
        16
    bxb100  
       2017-02-19 00:01:44 +08:00 via Android
    @BoBoy 我觉得你的回复攻击性有点强啊
    zwh8800
        17
    zwh8800  
       2017-02-19 02:26:55 +08:00 via iPhone
    爬虫架构上也是很有研究的,开发一个分布式的爬虫系统难度比分布式的 web 高多了
    aussieweever
        18
    aussieweever  
       2017-02-19 10:17:25 +08:00 via Android
    很多网站上写明了禁止各种形式的数据抓取这个怎么破
    Yourdaye
        19
    Yourdaye  
       2017-02-19 10:51:48 +08:00
    @BoBoy 你说你长得跟三寸丁的武大郎似的,问人,当鸭有没有前途?别人说,当鸭肯定有前途啊,但是你吧,可能只能戴着绿帽卖烧饼了。

    PS:此回复与楼主无关
    PS2 :@BoBoy 已被 Blocked.
    BoBoy
        20
    BoBoy  
       2017-02-19 12:02:26 +08:00 via iPhone
    @bxb100 没有,没有。我只是道出了事实的真相,真相一般都会使当事者羞愧难当,然后为了掩饰自己被揭露的内心,就会此地无银三百两,就想下面他回复的那样。
    哈哈,这种人调侃调侃就好了,死活与我何干😜😜
    imn1
        21
    imn1  
       2017-02-19 13:23:19 +08:00
    爬虫只是一种输入方式

    大多数涉及数据的行业都需要爬虫
    例如與情分析,难道派人每天一条条微博、一条条微信去看么?

    职业规划什么的,其实也不用想太多,职业是市场决定
    我 90 年代想做这方面的规划也没用,因为那时市场除了调查公司没有“大树锯”的需求
    而现在,也不能做出很好的规划,因为现在大树锯还流于表面(只是算算占比、同比、环比之类),很多实际需要数据分析的行业还未能“见到”大数据的好处

    现在国内真正做数据深挖的是气象、地震、医药、部分重化工、证券、少数农业、以及一些科研单位或军事单位
    国外除了上述还有自动驾驶、探索(地球、太空、考古)、日用化工、零售……等等,覆盖面已经逐渐铺开
    国内的零售、服装、服务业……还处于浅挖

    爬虫狭义的就是互联网爬虫,爬的就是文字信息,技术加强肯定离不开深度、广度、速度这三方面,这是回应 LZ 的
    但广义爬虫就多了,离开互联网,用仪器辅助获取信息,都是爬虫,例如 google 用无人驾驶汽车收集地图信息,如果你有“预见”,可以用无人机收集信息啊
    还记得《 X-File 》么?利用天花接种收集公民 DNA 信息……呃,扯远了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2760 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 05:46 · PVG 13:46 · LAX 22:46 · JFK 01:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.