首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Coding
V2EX  ›  程序员

Python 爬虫 分析网易 163 邮箱的邮件列表节点(加载方式)遇到阻碍...

  •  
  •   Northxw · 272 天前 · 1291 次点击
    这是一个创建于 272 天前的主题,其中的信息可能已经有所发展或是发生改变。

      网易的产品给我的感觉亲和力还挺好的,网易新闻连 robots.txt 都没有,默认允许所有爬虫的爬取行为。今天爬取网易 163 邮箱,却着实碰到了一个硬茬,邮件列表的 div 一直获取不到,我自己分析了两种可能:

    • Js 加载
    • 隐藏的 iframe 节点   首先申明,我不是学前后端的,我对前端略有涉猎,后端基本全无,所以分析过程比较困难,求解答。。。
    7 回复  |  直到 2019-03-15 22:39:15 +08:00
        1
    takemefly   272 天前
    应该是 JS 加载。有前端知识的话,可以了解这个开源抓取器 https://gitee.com/golddata/golddata-spider,里面提到了一个免费社区板试试。
        2
    Northxw   272 天前
    @takemefly 爬虫自动化工具呗 嘿嘿 不过我还是想自己搞
        3
    krixaar   271 天前
    爬邮件内容的话,应该是只能爬自己的邮箱,如果是爬自己的邮箱,为啥不直接把邮件 IMAP 下来……
    从 126 看是一个到 mail(dot)126(dot)com/js6/s?sid=(cookie:Coremail.sid)&func=mbox:listMessages&deftabclick=t3 的 xhr,POST 一个特定格式的 xml,然后直接回一个 json 的邮件完整列表。
        4
    Northxw   271 天前
    @krixaar 我的初衷是用 Selenium 登录加爬取邮件,如果那样的话,太千篇一律了。。。
        5
    coolloves   271 天前 via iPhone
    @Northxw 如果是收取邮件,好像可以直接通过 pop 模块获取吧
        6
    locoz   271 天前 via Android
    直接用协议不是方便很多吗
        7
    Northxw   271 天前
    @coolloves 你好,不是直接收取邮件。而是获取邮件列表中所以邮件的有效信息。。。

    @locoz 协议固然方便,哈哈。 不过我还是希望自己通过 Selenium 实现下,不想太千篇一律。。。
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4145 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 25ms · UTC 06:53 · PVG 14:53 · LAX 22:53 · JFK 01:53
    ♥ Do have faith in what you're doing.