V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
推荐关注
Meteor
JSLint - a JavaScript code quality tool
jsFiddle
D3.js
WebStorm
推荐书目
JavaScript 权威指南第 5 版
Closure: The Definitive Guide
sirthisman

求求各位大佬,爬虫小白遇到的一个 js 生成 cookie 的难题

  •  
  •   sirthisman · Jul 10, 2020 · 3474 views
    This topic created in 2123 days ago, the information mentioned may be changed or developed.

    用 python 爬取疫情通报网站 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml 时遇到的一个问题。 第一次请求网站时返回状态码 412,同时返回了一个 js 文件后再次请求网站后请求成功。如图 avatar 我猜是第一次返回的请求头 set-cookie 字段和这个 js 文件 http://www.nhc.gov.cn/efzZI1ZIHCHw/lRzGTrFtfOv6.ca73791.js (再加上一个 html 的 js 混淆后的脚本,查看网页源代码能看到)生成了完整的 cookie,就可以成功请求网站了。 本人不懂前端和 js 技术,请问如何在 python 中实现这个生成 cookie 的功能呢?(或者能在 python 中执行这个脚本生成 cookie 的方法) 谢谢各位!

    5 replies    2020-07-13 19:31:42 +08:00
    luoleng
        1
    luoleng  
       Jul 10, 2020
    找到生成 cookie 的 js 代码,python 可以直接调用 js,比如 execjs ;
    sirthisman
        2
    sirthisman  
    OP
       Jul 10, 2020
    @luoleng 谢谢。那经过加密的 js 也可以执行吗?
    Loooom
        3
    Loooom  
       Jul 10, 2020
    这不是瑞数嘛
    sirthisman
        4
    sirthisman  
    OP
       Jul 10, 2020
    @Loooom 我是小白不太懂,能给解释一下吗
    baxtergu
        5
    baxtergu  
       Jul 13, 2020
    这个网站加密比较厉害,建议用模拟浏览器的方式去爬
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2444 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 69ms · UTC 09:00 · PVG 17:00 · LAX 02:00 · JFK 05:00
    ♥ Do have faith in what you're doing.