V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
CriseLYJ
V2EX  ›  Python

Python 模拟各大网站登陆方式,以及一些爬虫程序,灰常适合学习爬虫的同学们哦!~~脚本几乎都是简单一点的,很容易上手,希望对小白有所帮助

  •  
  •   CriseLYJ · 2019-03-10 22:29:26 +08:00 · 3700 次点击
    这是一个创建于 1871 天前的主题,其中的信息可能已经有所发展或是发生改变。

    python 模拟各大网站登陆方式,以及一些爬虫程序

    • 写在最前面,欢迎各位大佬来提 PR,也可以来讲自己做爬虫的心得与体会,一些小技巧都可以!可以联系我!

    • 啊!第三次发了,希望你们不要觉得烦,只是想做一些有意义的事情,勿怪!!多谢!!!

    • 增加糗事百科,链家!

    • 如果喜欢的话可以给个 star 谢谢

    • 🌟分享一些各大网站登陆方式, 和一些网站的爬虫程序,有的是通过 selenium 登录,有的是通过抓包直接模拟登录,有的是利用 scrapy,脚本几乎都不太大,很容易上手,希望对小白有所帮助,本项目用于研究和分享各大网站的模拟登陆方式,和爬虫程序,会持续更新。。。

    关于

    • 模拟登陆基本采用的是直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间,bilibili 等如果采用 selenium 就相对轻松一些。

    • 虽然在登录的时候采用的是 selenium,为了效率,我们可以在登录过后得到的 cookie 维护起来,然后调用 requests 或者 scrapy 等进行数据采集,这样数据采集的速度可以得到保证。

    项目地址

    Github

    Completed

    show

    Bilibili 自动登录测试正常,成功率 98%

    web 微信

    Alt text

    图虫 Spider

    淘宝 web

    • taobao.py 为模拟登录
    • 剩下的文件为爬虫

    Github

    新增链家 Spider

    1. 爬取淘宝各子标签,按销量排名商品信息,按分类保存至 MongoDB
    2. 通过 pandas 进行数据分析
    3 .将商品在各省分布、销量排行、地图分布等通过 matplotlib 绘图显示
    

    guoke.spider 使用需谨慎,下载的比较快! 10 秒能下载一堆,截图我就不展示了,已经删除,东西太多了😝

    微博

    • sina.py 为模拟登录
    • spider 文件夹中为爬虫
    1. 输入要爬取的博主 ID,获取 ajax 请求
    2. 解析 json 数据,爬取博主所有微博,保存至 MySQL
    
    

    网易云音乐

    • 新增网易云音乐下载,之前的一个小 demo 应该还可以用,Crypto 包应该挺难搞的,安装之后还是导入不了,推荐去百度一下,百度上的这个解决方法有很多,我就不多赘述了嘿嘿!

    知乎

    • 知乎登录没有问题,不过要手动输入验证码

    • 知乎登录遇到“ execjs._exceptions.ProgramError: TypeError: 'exports' 未定义”

    • 原因以及解决办法:

    1. 由于是你本地的 JScript 引擎只有一个默认的 JScript,所以会造成 json 未定义的错误。
    2. execjs 会自动使用当前电脑上的运行时环境
    3. 解决办法:安装一个 nodejs 的 V8 引擎就可以了
    

    糗事百科

    tips of pull request

    • 欢迎大家一起来 pull request 💗

    • 很重要很重,欢迎大家来提 PR

    • 喜欢的记得过来给小弟个 star 支持一下哦!

    16 条回复    2019-03-11 10:52:04 +08:00
    CriseLYJ
        1
    CriseLYJ  
    OP
       2019-03-10 22:40:15 +08:00
    顶一下下
    Baymaxbowen
        2
    Baymaxbowen  
       2019-03-10 22:44:28 +08:00 via Android
    哈哈哈已经 star,现在还看上了 LZ 终端的背景图,能分享吗?
    zxcvsh
        3
    zxcvsh  
       2019-03-10 22:45:08 +08:00 via iPhone
    手动用户名密码....
    CriseLYJ
        4
    CriseLYJ  
    OP
       2019-03-10 22:46:27 +08:00
    @zxcvsh 不是手动 😓 录制 gif 的时候那边没录进去
    zxcvsh
        5
    zxcvsh  
       2019-03-10 22:47:06 +08:00 via iPhone
    @zxcvsh 打错了...看成手动验证了;滑动验证是距离检查吗?
    CriseLYJ
        6
    CriseLYJ  
    OP
       2019-03-10 22:48:02 +08:00   ❤️ 1
    @Baymaxbowen 链接: https://share.weiyun.com/5p9GKeO 密码:w25g8b
    拿走吧 昨天刚找到的图,挺喜欢的 哈哈
    CriseLYJ
        7
    CriseLYJ  
    OP
       2019-03-10 22:50:23 +08:00
    @zxcvsh 嗯嗯
    CriseLYJ
        8
    CriseLYJ  
    OP
       2019-03-10 23:05:10 +08:00
    好好学习
    CriseLYJ
        9
    CriseLYJ  
    OP
       2019-03-10 23:26:09 +08:00
    别沉
    Allianzcortex
        10
    Allianzcortex  
       2019-03-10 23:27:04 +08:00
    这是总结+原创吗?
    VanderMark6
        11
    VanderMark6  
       2019-03-11 03:54:04 +08:00 via Android
    感谢分享
    CriseLYJ
        12
    CriseLYJ  
    OP
       2019-03-11 08:54:22 +08:00
    @VanderMark6 不用谢 哈
    cat9life
        13
    cat9life  
       2019-03-11 10:16:11 +08:00
    这个可以有啊 1024
    Heyavc
        14
    Heyavc  
       2019-03-11 10:27:34 +08:00
    Nice Job,模拟登录值得学习,对一些自动化工程很有帮助。
    CriseLYJ
        15
    CriseLYJ  
    OP
       2019-03-11 10:51:52 +08:00
    @Heyavc 多谢支持
    CriseLYJ
        16
    CriseLYJ  
    OP
       2019-03-11 10:52:04 +08:00
    @cat9life 多谢支持
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1027 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 19:42 · PVG 03:42 · LAX 12:42 · JFK 15:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.