最近在做网易云个人信息遍历抓取;
那么毛病就来了;
https://music.163.com/user/home?id=29879272
https://music.163.com/user/home?id=132128
这是两个个人主页; 29879272 这个呢,etree.HTML(源码),可以完全解析 html。
132128 这个呢,就 BUG 了,etree.HTML(源码),发现 html 被截断。


会被源码里面的 description 的 —— 双横线给截断了。简直奇葩;
有没有大神 look look。我发现这是一个 BUG