baidu 爬虫抓取的时候 gzip 没有生效

2018-10-24 22:41:00 +08:00

SCaffrey

有没有大佬知道是为什么啊…… 谢谢 >_<

贴一下 nginx 的设置……

    gzip               on;
    gzip_vary          on;

    gzip_comp_level    6;
    gzip_buffers       32 8k;

    gzip_min_length    1000;
    gzip_proxied       any;
    gzip_disable       "msie6";

    gzip_http_version  1.1;

    gzip_types         text/plain text/css application/json application/x-javascript text/xml application/xml application/xml+rss text/javascript application/javascript image/svg+xml;

在百度的站长工具-抓取诊断里看

HTTP/1.1 200 OK
Date: Wed, 24 Oct 2018 14:19:13 GMT
Content-Type: text/html
Content-Length: 1501880
Connection: close
Server: nginx/1.10.3 (Ubuntu)
Last-Modified: Wed, 24 Oct 2018 13:20:29 GMT
Vary: Accept-Encoding

这个 Content-Length …… 有点迷

https://varvy.com/tools/gzip/ 测试的结果

Original size: 1501880
Compressed size: 153241
File reduced by: 1349 kb

2186 次点击

所在节点

问与答

11 条回复

Foxkeh

2018-10-25 00:17:22 +08:00

好像跟请求有关

springmarker

2018-10-25 00:45:13 +08:00

是否用 gzip 也得看请求头啊

SCaffrey

2018-10-25 01:49:54 +08:00

@Foxkeh @springmarker 请求头不受我控制吧（难道我理解错了

also24

2018-10-25 01:52:22 +08:00

@SCaffrey #3
https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Headers/Accept-Encoding

hundan

2018-10-25 01:54:04 +08:00

@SCaffrey 如果爬虫请求头就写了不支持 gzip 服务器就不会返回压缩过的啊

yangqi

2018-10-25 01:55:36 +08:00

你 gzip_types 里面也没有 text/html 啊，当然不生效了。

SCaffrey

2018-10-25 02:01:09 +08:00

@yangqi #6 我理解它默认就有 text/html ？而且如果写进去会提示 nginx: [warn] duplicate MIME type "text/html"
@also24 @hundan 我好像没表述清楚（？）百度爬我的站…… 我可以控制它的爬虫的请求头吗……

also24

2018-10-25 02:12:51 +08:00

@SCaffrey #7
我用百度的抓取工具抓我自己的站测试了一下，确实也是没有触发 gzip 的
看起来应该是百度的爬虫的 request header 的问题

SCaffrey

2018-10-25 02:14:31 +08:00

@also24 谢谢啦～

2018-10-25 09:54:16 +08:00

这是百度爬虫已经表明自己不接受 gzip，你还压缩个鬼啊。

digglife

2021-07-05 04:24:36 +08:00

挖个坟，2021 年了还是不支持 GZIP 。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/500830

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.