V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
warmwei
V2EX  ›  程序员

爬虫求助:爬虫新手,请教各位大佬, CSDN 抓取文章 html 的时候 返回不了正确的 html,该如何处理

 •  
 •   warmwei · 2019-11-14 17:57:43 +08:00 · 2854 次点击
  这是一个创建于 916 天前的主题,其中的信息可能已经有所发展或是发生改变。

  需求:将 csdn 上的文章 html 抓下来,存储在本地 随便一个链接: https://blog.csdn.net/m0_37907797/article/details/102661778 然后 抓取返回的是 如下,以为是 gzip 的问题 但好像不是,请教各位大佬,有没有比较方便的方案,谢谢答复



  16 条回复    2019-11-15 09:32:35 +08:00
  whoami9894
      1
  whoami9894  
     2019-11-14 18:11:19 +08:00 via Android
  HTML 由 js 动态生成的,还做了混淆
  crella
      2
  crella  
     2019-11-14 18:52:09 +08:00 via Android
  不懂乱答,selenium
  superrichman
      3
  superrichman  
     2019-11-14 19:00:57 +08:00
  你的请求要把 header 加上, 特别是 cookie
  no1xsyzy
      4
  no1xsyzy  
     2019-11-14 19:16:14 +08:00
  JSNice,请
  ozuikai
      5
  ozuikai  
     2019-11-14 19:29:57 +08:00 via iPhone
  与 header 无关 加上 cookie 可破
  superrichman
      6
  superrichman  
     2019-11-14 20:07:56 +08:00
  @ozuikai cookie 就是 header 的一部分, 还是有关的. 你去抓一下 https 请求就知道了.
  Arrowing
      7
  Arrowing  
     2019-11-14 20:12:02 +08:00 via Android
  先在浏览器看看正常的响应,再把请求头和请求体记下来,用程序或者 postman 跑一下
  endoffight
      8
  endoffight  
     2019-11-14 20:15:09 +08:00 via Android
  nodejs 可破
  ozuikai
      9
  ozuikai  
     2019-11-14 21:27:42 +08:00 via iPhone
  @superrichman 嗯 是一部分 我说的不严谨 只是这两个在 requests 中可以分开设置 爬 csdn 只用加上 cookie 就会正常返回 其他可以用默认的
  jeffh
      10
  jeffh  
     2019-11-14 21:50:58 +08:00
  用 postman 试了一下,不加 cookie 你这个问题成功复现,把 cookie 加上就可以了
  likuku
      11
  likuku  
     2019-11-14 22:12:28 +08:00
  干嘛要抓 CSDN 的数据?没见这么多人想法来屏蔽它的结果呢...
  yingqi7
      12
  yingqi7  
     2019-11-14 23:28:27 +08:00 via iPhone
  csdn 没啥意思
  woai110120130
      13
  woai110120130  
     2019-11-15 08:58:01 +08:00
  不要命了啊
  luvxy
      14
  luvxy  
     2019-11-15 09:06:42 +08:00
  了解下 Puppeteer
  geying
      15
  geying  
     2019-11-15 09:20:30 +08:00
  只求抓完不要再放出来
  zdnyp
      16
  zdnyp  
     2019-11-15 09:32:35 +08:00   ❤️ 2
  关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2053 人在线   最高记录 5497   ·     Select Language
  创意工作者们的社区
  World is powered by solitude
  VERSION: 3.9.8.5 · 35ms · UTC 16:34 · PVG 00:34 · LAX 09:34 · JFK 12:34
  Developed with CodeLauncher
  ♥ Do have faith in what you're doing.