首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Java

Java 做爬虫有没有什么比较牛的地方?

  •  
  •   harley27 · 75 天前 · 3314 次点击
    这是一个创建于 75 天前的主题,其中的信息可能已经有所发展或是发生改变。
    现在做爬虫的几乎全都是 pythonpythonpython
    甚至还有些接单的用易语言做(因为好学么?不明真相)
    如果用 Java 做的话会不会使客户觉得这个人比较超脱凡俗,比较靠得住……
    当然,我们这里还是讨论技术。不知道技术层面上用 Java 实现爬虫有没有什么特殊的好处
    31 回复  |  直到 2019-08-03 13:01:51 +08:00
        1
    axwz88   75 天前 via Android
    python 写爬虫好处是工作量小,轮子也多,用 java 写爬虫和 python 实现的没太大区别,很多搜索引擎爬数据量特别大还要追求速度的用 c 和 c++写爬虫
        2
    flyingghost   75 天前   ♥ 4
    java 做爬虫它牛就牛在爬虫业务两不误。
    招个 py 做完爬虫是开掉还是开掉呢?
        3
    kaiccc   75 天前
    @flyingghost 哈哈哈
        4
    ddup   75 天前
    搜索引擎爬虫就选 Nutch 大神作品。
    python 有个 GIL 全局锁,性能上有瓶颈,大规模爬行会吃不消。
        5
    salamanderMH   75 天前
    我用 nodejs 写的,编译型语言( java,go 这些)工程化好一点
        6
    zjyl1994   75 天前
    python 轮子多而已,java 并不会觉得靠得住,人家不会看语言的只要数据
        7
    daozhihun   75 天前
    做过爬虫的说一句。
    楼上说的对,老板 & 客户要的数据+准确性,人家才不管你用啥语言。
    况且爬虫最麻烦的地方是对付反爬,你得有一定的思路,语言倒是次要的。
        8
    lihongjie0209   75 天前
    语言无所谓, 关键是生态
        9
    leopku   75 天前 via Android
    @ddup 有道理,我选 go 系爬虫
        10
    shuizhengqi   75 天前
    说 GIL 全局锁的,这对爬虫有什么影响?爬虫主要是爬,又不是计算,这有什么吃不消的
        11
    janxin   75 天前
    码农不值钱?
        12
    ben1024   75 天前
    主要是反爬的解决方案
        13
    Mazexal   75 天前
    java 不适合做爬虫, 强类型处理很容易报错..........
        14
    HOU   75 天前
    java + web-harvest + xpath,爬得很美
        15
    hotcool100   75 天前
    对不起,跟我走一趟,我是国家反爬局的……
        16
    wysnylc   75 天前
    强类型处理报错的了解下 optional
    java 做爬虫的话就在于分布式了,如果单机能做的爬虫任务没必要用 java
    java 爬虫推荐一个许雪里的 XXL-CRAWLER,链式编程一行代码一个爬虫!
        17
    Cellei   74 天前
    Go 爬虫哪位大佬再给讲解下
        18
    duanxianze   74 天前
    @flyingghost 哈哈哈
        19
    392039757   74 天前
    没有好用的 java 爬虫框架,自己写轮子太难受
        20
    cweijan   74 天前
    @392039757 webmagic
        21
    1340976576   74 天前
    java 和 python 爬虫,我刚好都做过
    两者其实原理都是一样的,实现方式也都差不多,只是语法的差异,使得 python 更简洁,代码量更少。
        22
    HivenYang   74 天前
    @flyingghost 目测是个人才
        23
    Fiona7heHuman   74 天前
    @flyingghost 真相了哥
        24
    MonoLogueChi   74 天前 via Android
    @Mazexal 说到强类型我就想到有一次拿 C#去重新实现一遍一个 js 写的 API,一写 object[]我心里就难受
        25
    luozic   74 天前 via iPhone
    反爬虫咋玩? python 轮子多上啥识别方案,Java 得现造不少轮子
        26
    lihongjie0209   74 天前
    @luozic #25 java rpc 直接调用 python 封装的库就可以了
        27
    unicloud   74 天前 via iPhone
    没有
        28
    spotfg   74 天前
    @flyingghost 不是增量型的爬虫,当然直接开了没事,遇到增量型爬虫,目标网站三天,两头变一次这开了,其他没有爬虫经验的能接手么……
        29
    impl   74 天前 via Android
    Java 放个屁都要用个类包起来,Python 脱下裤子就干
        30
    dai123456   74 天前
    python 相对来说容易上手一些,很多初学者都是使用的这种语言,但是也有很多大公司使用 java 的相对来说比较多,具体哪种更牛一些,个人理解要看你掌握技术的能力,两种语言都有利弊
        31
    yinzhili   74 天前
    用 java 做爬虫的话,便于整合到一些现有业务系统中去,因为好多现有的业务系统就是基于 java 的
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4181 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 34ms · UTC 07:56 · PVG 15:56 · LAX 00:56 · JFK 03:56
    ♥ Do have faith in what you're doing.