V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
musclepanda
V2EX  ›  程序员

新人学爬虫,求问新浪微博查看正常的源代码

  •  
  •   musclepanda · 2018-06-17 20:36:04 +08:00 · 3062 次点击
    这是一个创建于 2131 天前的主题,其中的信息可能已经有所发展或是发生改变。

    随便找个微博的页面 比如: https://weibo.com/u/2850809427

    调出 F12 代码检查器,可以看到正常的 html 代码

    但是在页面上直接右键查看源代码,都是乱码呀……

    求问,怎么才能获取这些正常的 html 代码,不然爬虫不知道怎么做了。。。

    12 条回复    2018-06-18 08:58:47 +08:00
    musclepanda
        1
    musclepanda  
    OP
       2018-06-17 20:40:12 +08:00
    右键查看的源代码:


    F12 检查器看的代码
    poorcai
        2
    poorcai  
       2018-06-17 20:42:09 +08:00   ❤️ 1
    那只是没有格式化吧。。。
    musclepanda
        3
    musclepanda  
    OP
       2018-06-17 20:43:18 +08:00
    @poorcai 不懂,请多多指教
    levywang
        4
    levywang  
       2018-06-17 20:43:34 +08:00 via Android
    cydian
        5
    cydian  
       2018-06-17 20:44:47 +08:00 via Android
    楼主没有认真比对代码吧。
    一个格式化一个没有。。。
    对爬虫又不影响。
    感觉新浪微博压缩了代码,不仅起到了节约网络流量的目的(以及其他的目的),还起到了防止低级爬虫来偷窥的作用
    airyland
        6
    airyland  
       2018-06-17 20:52:01 +08:00 via iPhone
    建议爬手机站,直接 json 数据
    qiayue
        7
    qiayue  
       2018-06-17 20:58:50 +08:00
    楼主两个截图都不是同一个地方,怎么对比
    tuwulin365
        8
    tuwulin365  
       2018-06-17 21:04:20 +08:00
    不要爬煎蛋
    zhengjian
        9
    zhengjian  
       2018-06-17 23:41:30 +08:00
    m.weibo.cn/beta
    抓网络请求
    JCZ2MkKb5S8ZX9pq
        10
    JCZ2MkKb5S8ZX9pq  
       2018-06-18 00:45:44 +08:00
    优先搞 json 没有再拆 html
    opengps
        11
    opengps  
       2018-06-18 05:38:13 +08:00 via Android
    仅仅是没格式化
    alvin666
        12
    alvin666  
       2018-06-18 08:58:47 +08:00 via Android
    这两个不是一样的吗。。。这也叫乱码啊,那不知道以后你遇到编码问题是不是会觉得电脑中毒了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4207 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 05:27 · PVG 13:27 · LAX 22:27 · JFK 01:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.