V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
dicc
V2EX  ›  Python

求一个过 seebug 反爬的姿势,太难了😿

  •  
  •   dicc · 2021-12-10 16:54:06 +08:00 · 3045 次点击
    这是一个创建于 840 天前的主题,其中的信息可能已经有所发展或是发生改变。

    😿😿😿😿😿

    10 条回复    2021-12-13 09:34:15 +08:00
    dicc
        1
    dicc  
    OP
       2021-12-10 16:55:26 +08:00
    github 上面的貌似都已念旧失修, selenium webdriver 加载的时候,页面没有编码导致 js 直接解析错误.
    Eiden
        2
    Eiden  
       2021-12-10 17:39:43 +08:00
    真男人都是直接淦 js, 用啥 webdriver
    janxin
        3
    janxin  
       2021-12-10 17:53:57 +08:00
    用 RSS 不行么...
    shyling
        4
    shyling  
       2021-12-10 18:00:12 +08:00
    虽然没试过。。。但想知道具体有什么难度=。=
    mengchen
        5
    mengchen  
       2021-12-10 19:38:35 +08:00 via iPhone
    上无头浏览器呀
    Blacktrace58
        6
    Blacktrace58  
       2021-12-10 19:52:57 +08:00 via iPhone
    可以起个浏览器,油猴插件,用脚本去帮你爬,可行吗
    dicc
        7
    dicc  
    OP
       2021-12-11 13:53:41 +08:00
    @mengchen @shyling 试试就逝世,这个站反扒的确 6p
    Eiden
        8
    Eiden  
       2021-12-12 10:59:24 +08:00
    昨天晚上大概看了下
    # 第一步由__jsluid_s 获取__jsl_clearance_s=, 通过第一步请求返回的 js(称 js1)计算而来, js1 可以 execjs 直接跑
    # 第二步更新__jsl_clearance_s=, 由带__jsluid_s 和旧的__jsl_clearance_s 请求返回的 js(称 js2)计算而来
    # js2 主要功能有检测浏览器是否为 webdriver 等等, 以及更新__jsl_clearance_s
    # 更新 js2 的算法目前发现有 md5, sha1, sha256, 具体哪种由服务器随机返回
    # js2 经过一些人肉反混淆后也能 execjs 跑, 主要是那个 hash 函数
    下面贴点片段:
    https://gist.github.com/seishinkouki/3e4ae8984d652abb6bdb5702497a8160
    https://gist.github.com/seishinkouki/9bd736af89ae099b1158a1c5f0866c41
    dicc
        9
    dicc  
    OP
       2021-12-12 11:42:19 +08:00
    @Eiden 大兄弟 6p ,__jsl_clearance_s= 其实我也用 execjs 算过,但是我更新 cookie 它还是拒绝我,所以我就不太懂它的逻辑了,我看看你的代码先
    dicc
        10
    dicc  
    OP
       2021-12-13 09:34:15 +08:00
    https://www.cnblogs.com/lovealways/p/9813059.html 用这篇文章的思路绕过了,哈哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2809 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 13:31 · PVG 21:31 · LAX 06:31 · JFK 09:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.