新人学爬虫,求问新浪微博查看正常的源代码

2018-06-17 20:36:04 +08:00
 musclepanda

随便找个微博的页面 比如: https://weibo.com/u/2850809427

调出 F12 代码检查器,可以看到正常的 html 代码

但是在页面上直接右键查看源代码,都是乱码呀……

求问,怎么才能获取这些正常的 html 代码,不然爬虫不知道怎么做了。。。

3069 次点击
所在节点    程序员
12 条回复
musclepanda
2018-06-17 20:40:12 +08:00
右键查看的源代码:


F12 检查器看的代码
poorcai
2018-06-17 20:42:09 +08:00
那只是没有格式化吧。。。
musclepanda
2018-06-17 20:43:18 +08:00
@poorcai 不懂,请多多指教
levywang
2018-06-17 20:43:34 +08:00
cydian
2018-06-17 20:44:47 +08:00
楼主没有认真比对代码吧。
一个格式化一个没有。。。
对爬虫又不影响。
感觉新浪微博压缩了代码,不仅起到了节约网络流量的目的(以及其他的目的),还起到了防止低级爬虫来偷窥的作用
airyland
2018-06-17 20:52:01 +08:00
建议爬手机站,直接 json 数据
qiayue
2018-06-17 20:58:50 +08:00
楼主两个截图都不是同一个地方,怎么对比
tuwulin365
2018-06-17 21:04:20 +08:00
不要爬煎蛋
zhengjian
2018-06-17 23:41:30 +08:00
m.weibo.cn/beta
抓网络请求
JCZ2MkKb5S8ZX9pq
2018-06-18 00:45:44 +08:00
优先搞 json 没有再拆 html
opengps
2018-06-18 05:38:13 +08:00
仅仅是没格式化
alvin666
2018-06-18 08:58:47 +08:00
这两个不是一样的吗。。。这也叫乱码啊,那不知道以后你遇到编码问题是不是会觉得电脑中毒了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/463771

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX