baidu 爬虫抓取的时候 gzip 没有生效

2018-10-24 22:41:00 +08:00
 SCaffrey

有没有大佬知道是为什么啊…… 谢谢 >_<

贴一下 nginx 的设置……

    gzip               on;
    gzip_vary          on;

    gzip_comp_level    6;
    gzip_buffers       32 8k;

    gzip_min_length    1000;
    gzip_proxied       any;
    gzip_disable       "msie6";

    gzip_http_version  1.1;

    gzip_types         text/plain text/css application/json application/x-javascript text/xml application/xml application/xml+rss text/javascript application/javascript image/svg+xml;

在百度的站长工具-抓取诊断里看

HTTP/1.1 200 OK
Date: Wed, 24 Oct 2018 14:19:13 GMT
Content-Type: text/html
Content-Length: 1501880
Connection: close
Server: nginx/1.10.3 (Ubuntu)
Last-Modified: Wed, 24 Oct 2018 13:20:29 GMT
Vary: Accept-Encoding

这个 Content-Length …… 有点迷

https://varvy.com/tools/gzip/ 测试的结果

Original size: 1501880
Compressed size: 153241
File reduced by: 1349 kb
1684 次点击
所在节点    问与答
11 条回复
Foxkeh
2018-10-25 00:17:22 +08:00
好像跟请求有关
springmarker
2018-10-25 00:45:13 +08:00
是否用 gzip 也得看请求头啊
SCaffrey
2018-10-25 01:49:54 +08:00
@Foxkeh @springmarker 请求头不受我控制吧( 难道我理解错了
also24
2018-10-25 01:52:22 +08:00
hundan
2018-10-25 01:54:04 +08:00
@SCaffrey 如果爬虫请求头就写了不支持 gzip 服务器就不会返回压缩过的啊
yangqi
2018-10-25 01:55:36 +08:00
你 gzip_types 里面也没有 text/html 啊,当然不生效了。
SCaffrey
2018-10-25 02:01:09 +08:00
@yangqi #6 我理解它默认就有 text/html ?而且如果写进去会提示 nginx: [warn] duplicate MIME type "text/html"
@also24 @hundan 我好像没表述清楚(?)百度爬我的站…… 我可以控制它的爬虫的请求头吗……
also24
2018-10-25 02:12:51 +08:00
@SCaffrey #7
我用百度的抓取工具抓我自己的站测试了一下,确实也是没有触发 gzip 的
看起来应该是百度的爬虫的 request header 的问题
SCaffrey
2018-10-25 02:14:31 +08:00
@also24 谢谢啦~
zn
2018-10-25 09:54:16 +08:00
这是百度爬虫已经表明自己不接受 gzip,你还压缩个鬼啊。
digglife
2021-07-05 04:24:36 +08:00
挖个坟,2021 年了还是不支持 GZIP 。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/500830

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX