V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
feiniu
V2EX  ›  职场话题

新入职,我感觉我不适合这行

  •  
  •   feiniu · 200 天前 · 3987 次点击
    这是一个创建于 200 天前的主题,其中的信息可能已经有所发展或是发生改变。

    新入职,加这周才 2 周

    老大这周一给我一个任务

    爬 tmall 店 铺商品列表

    我只想说,周一到现在,我感觉我要自闭了

    第 1 条附言  ·  198 天前
    我还是太年轻啊。城市道路太滑了,说好的不加班,结果。。。。。。入职的第三天,搞到凌晨 2 点才回去
    35 条回复    2020-09-27 12:15:09 +08:00
    wangkun025
        1
    wangkun025   200 天前
    这个……食宿免费?
    kop1989
        2
    kop1989   200 天前   ❤️ 1
    动物节点可还行😂,码畜坐实了。
    慢慢学习,程序员算是少有的知识就是力量的职业了。
    feiniu
        3
    feiniu   200 天前
    @wangkun025 晚上还是要回去的
    feiniu
        4
    feiniu   200 天前
    @kop1989 老哥有什么门路吗
    gou7ma7
        5
    gou7ma7   200 天前 via Android
    啥外企啊还爬,话说是不是真的 955 啊?我也在深大地铁站附近。
    wysnylc
        6
    wysnylc   200 天前
    迟早进去
    caicaiwoshishui
        7
    caicaiwoshishui   200 天前 via iPhone
    Github 没有这种轮子吗?可以查下
    tomczhen
        8
    tomczhen   200 天前 via Android   ❤️ 3
    淘宝系的正常使用如果浏览快点都给你弹各种验证码,写爬虫还不如多顾几个大学生手工录入。

    哦,不对,应该叫大数据实习生。
    feiniu
        9
    feiniu   200 天前
    @gou7ma7 955 是不可能的。到点了一个个都不走,我也不知道为什么。连续一周都是我第一个走。。。。
    feiniu
        10
    feiniu   200 天前
    @caicaiwoshishui 没找到轮子。。。
    feiniu
        11
    feiniu   200 天前
    @tomczhen 这也可以吗😭
    Cooky
        12
    Cooky   200 天前 via Android
    selenium 慢点跑?
    TimeRain
        13
    TimeRain   200 天前
    这种爬虫公司蛮危险呀,爬虫一时爽,终身火葬场
    helloworld2010
        14
    helloworld2010   200 天前
    就写个爬虫而已,都开始怀疑自己能力了,建议先熟悉下 web 接口的一些规范,json/graphql 等等,html/css/js 也是。
    feiniu
        15
    feiniu   200 天前
    @helloworld2010 有过一年的前后端开发经验的。这个淘宝这个风控是真的牛皮......
    v2hh
        16
    v2hh   200 天前   ❤️ 5
    不要爬,真是经历,一个朋友公司爬的淘宝直播数据,他写的那部分代码,现在还在派出所,已经快有半个月了,公司老板目前还没事。
    zixianlaiye
        17
    zixianlaiye   200 天前   ❤️ 6
    这种任务也是 nb,天猫的风控你要是这么容易写一个自动化爬取的,阿里那帮人的工资白开了
    sixway
        18
    sixway   200 天前
    这个需要高质量的代理池,不然是无解的。
    LiuJiang
        19
    LiuJiang   200 天前
    这不赶紧跑,想啥。。。
    asdf2020
        20
    asdf2020   200 天前
    记得淘宝系的最难抓取,有同事尝试是借了好多账号,然后控制频率才搞定,切换 IP
    HFX3389
        21
    HFX3389   200 天前
    爬淘宝天猫说实话,就算能爬,也很难做自动化,分分钟风控,什么验证码就来了
    而且 爬虫写的好,牢饭吃到饱 可不是一句空话
    gou7ma7
        22
    gou7ma7   199 天前 via Android
    @feiniu 当时杭州有个公司,在本站也是招聘的时候说 955,然后面试的时候给我说。刚去肯定会加班,然后我就没去。
    gouflv
        23
    gouflv   199 天前 via iPhone
    确实不适合,换个正常的公司
    miku831
        24
    miku831   199 天前 via Android
    @v2hh 太恐怖了,真就不管老板啊
    XD2333
        25
    XD2333   199 天前
    不如去看看官方的接口,我记得这个你这个还是有的,没必要一个树上吊死。
    jon
        26
    jon   199 天前
    建议跑
    TimeRain
        27
    TimeRain   199 天前
    实在不行换个公司吧,离爬虫远点比较好,爬虫个人感觉是离监狱最近的地方,别和我说公开数据可以爬,只要不影响到别人的业务就行,因为最终解释权在人家公司那里,他说你有罪大概率逃不掉,他没说不能做也不要掉以轻心,说不定有些公司就是专门搞这种爬数据的人
    virtuemartx
        28
    virtuemartx   199 天前   ❤️ 1
    headless chrome 加 上千个类似 aws lambda 他们总不能分辨是爬虫了吧?
    因为上千个 lambda 肯定会有很多 ip?
    headless chrome 真实浏览器?
    leafre
        29
    leafre   199 天前
    难吗
    huai
        30
    huai   199 天前 via iPhone
    所以爬取这种相当于公开的数据 也是违法?楼上可以证实?还是也是道听途说(提问
    efaun
        31
    efaun   198 天前
    @huai #30 IT 界的万能罪“破坏计算机信息系统罪”了解一下
    Curtion
        32
    Curtion   198 天前
    @huai #30 爬取有反扒机制或者有 Robots 协议的网站都是犯法的。
    huai
        33
    huai   198 天前 via iPhone
    @efaun 根据《中华人民共和国刑法》第二百八十六条规定,破坏计算机信息系统罪是指违反国家规定,对计算机信息系统功能或计算机信息系统中存储、处理或者传输的数据和应用程序进行破坏,或者故意制作、传播计算机病毒等破坏性程序,影响计算机系统正常运行,后果严重的行为

    那估计爬虫 ddos ?
    huai
        34
    huai   198 天前 via iPhone
    @Curtion 反扒机制这个怎么算?有一些可能就是很轻松
    Curtion
        35
    Curtion   198 天前
    @huai #34 我说的反扒机制指的是:网站有故意设立的反扒机制,如果你尝试绕过这个机制去爬取数据就有一定风险,上面我说的它犯法不准确,因为没有法律明文,不过有风险是肯定的,因为有过判刑案列。
    关于   ·   帮助文档   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2368 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 97ms · UTC 13:26 · PVG 21:26 · LAX 06:26 · JFK 09:26
    ♥ Do have faith in what you're doing.