V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wuyuchenshishabi
V2EX  ›  职场话题

爬虫还得招专门的工程师?

  •  
  •   wuyuchenshishabi · 2017-11-18 11:47:50 +08:00 · 5853 次点击
    这是一个创建于 2350 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这不是一个数据从业者的基本素养?

    24 条回复    2017-12-09 12:52:24 +08:00
    bazingaterry
        1
    bazingaterry  
       2017-11-18 11:54:34 +08:00 via iPhone
    术业有专攻,看需求
    p2pCoder
        2
    p2pCoder  
       2017-11-18 12:07:21 +08:00   ❤️ 3
    要看你要收集的数据的多少和爬取的网站的难度了

    就像我 现在 再为一家大型 p2p 公司开发 征信相关的爬虫

    核心就是登陆 然后 通过相关的安全验证,我们做了 京东 淘宝 电信 联通 移动 学信 征信 这些个人用户信息的爬取,都是需要 登陆,其中 暗坑也很多,最复杂的就是 猜 session 校验,cookie 还比较好搞,session 中的校验我在客户端就只能猜,请求 ,然后试错。前端的 js html 也必须懂,起码要能做 js 断点调试,特别是 对于 加密算法,不能一遇到加密就是 selenium,否则性能跟不上

    然后就是爬虫本身要提供服务,就像 聚信立 等 数据提供商做的,其中 的 长连接 容错,如何保存,微服务也要考虑

    这两个月 面试了二十来个人,满意的就一两个,很多 都满足不了我们的需求,特别是 基础不好,http 的理解就是个基础,对于 web 后端也没有了解,前端也不熟,基本也就入个门
    ljcarsenal
        3
    ljcarsenal  
       2017-11-18 12:17:11 +08:00 via Android
    @p2pCoder 阿里系这种大公司也能破?
    p2pCoder
        4
    p2pCoder  
       2017-11-18 12:23:25 +08:00
    @ljcarsenal 登录就用 selenium,而且因为 ip 的问题,还需要再次验证短信验证码
    只要拿到 cookie,后面的参数和 http 请求头不触发 内部的一些安全机制,比如 csrf css,还有一些 token 找准确了,都能行
    京东和淘宝我们都这样做了,不过相当麻烦

    反正就是要关注 http 请求 的每一个参数,以及 http 请求头的参数,做的时候


    当然现在还有一种方法,不模拟登陆,直接在自家 app 内嵌 浏览器,让用户登陆,然后 拿 cookie
    takanasi
        5
    takanasi  
       2017-11-18 12:27:21 +08:00 via Android
    @p2pCoder 真阴险啊
    p2pCoder
        6
    p2pCoder  
       2017-11-18 12:31:25 +08:00
    @takanasi 开发之前首先找法务部门,现在这些 p2p 与现金贷公司都面对的是 次级用户,这些人 也不如 v 站上的程序员这么警觉
    说到底,这些老板 还是想做自己的风控,做自己的数据
    golmic
        7
    golmic  
       2017-11-18 13:13:23 +08:00
    @p2pCoder #6 我前几天尝试用模拟请求的方式过了淘宝的 js 加密,其他网站的模拟登录应该更不在话下了。如果其他网站有需求的话可以联系我。
    codermagefox
        8
    codermagefox  
       2017-11-18 14:07:19 +08:00
    @p2pCoder 真阴险啊+1,不过我好像挺喜欢这种活是怎么回事,可惜自己太菜
    hugee
        9
    hugee  
       2017-11-18 14:49:30 +08:00 via Android
    采简单的东西当然没问题,一看 lz 就是没遇到过有难度的
    sunchen
        10
    sunchen  
       2017-11-18 15:26:00 +08:00   ❤️ 1
    日常 30%时间写爬虫的路过。
    想知道楼主破解过 APP 吗,写过分布式 Xposed hook 手机集群吗?自定义过爬虫专用的 android rom 吗?搭过代理集群吗?搞定过多少验证码?
    其实我想说 sql 写的溜一般是爬虫工程师的基本素养。
    sensui7
        11
    sensui7  
       2017-11-18 15:51:04 +08:00
    有没有专门的岗位取决于工作量, 而不是技术.
    Lin3w
        12
    Lin3w  
       2017-11-18 16:57:19 +08:00 via Android
    大型分布式爬虫。。。
    而且工作量是岗位分配的一个影响因素吧
    gouchaoer
        13
    gouchaoer  
       2017-11-18 17:37:33 +08:00 via Android
    @sunchen 你说的这些要做下来是非常困难的,用 xposed hook 应用的 api 可以说是搞 app 的终极杀器,这套方案你们搞定了?
    gouchaoer
        14
    gouchaoer  
       2017-11-18 17:45:30 +08:00 via Android
    @sunchen 能求个微博关注一下么? V2EX 没私信不好说啊,我这边有些心得我们可以交流一下
    defunct9
        15
    defunct9  
       2017-11-18 19:19:21 +08:00 via iPhone   ❤️ 1
    感觉楼上都是作恶的人啊
    gouchaoer
        16
    gouchaoer  
       2017-11-18 19:24:22 +08:00 via Android
    @defunct9 don't judge,尤其用谷歌的信条来 judge 人
    sunchen
        17
    sunchen  
       2017-11-18 19:29:11 +08:00
    @gouchaoer 不用微博,马化腾 MjQ0MTkzMjkw
    artandlol
        18
    artandlol  
       2017-11-18 19:42:28 +08:00 via iPhone
    防爬虫都可以再招个人
    shyling
        19
    shyling  
       2017-11-18 20:53:46 +08:00
    表示被 4 个网站的爬虫天天折腾。。。讲真学爬虫不得学会 js 反混淆,各种调试,熟练 http 协议,反编 android, ios 程序,写段 cnn 识别验证码,做做分布式抓取?
    whatisnew
        20
    whatisnew  
       2017-11-18 22:28:47 +08:00
    开发还得招专门的开发工程师?产品运营客服两下就搞定了
    SlipStupig
        21
    SlipStupig  
       2017-11-19 10:34:20 +08:00
    Google 一定没有爬虫工程师,因为这个不是基本素养嘛
    abcbuzhiming
        22
    abcbuzhiming  
       2017-11-19 17:16:27 +08:00
    楼主你自己去看看最近的反爬,反反爬技术进步到什么程度了,这行我觉得难度已经追上搞安全和逆向的行业了,怎么会不需要专业工程师
    we3613040
        23
    we3613040  
       2017-11-20 10:02:45 +08:00
    征信都能爬到?不是得有短信验证码么
    @p2pCoder
    newzy
        24
    newzy  
       2017-12-09 12:52:24 +08:00
    @p2pCoder @all,回复的都是什么心态需要反思一下。有空多提升一下技术,就不会有这么多无聊的问题。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5439 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 06:55 · PVG 14:55 · LAX 23:55 · JFK 02:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.