如何抓取所有搜狗的词库? 用 python

2016-01-13 19:09:22 +08:00
 yangyaofei

最近做语言处理,要用词库,然后准备抓搜狗的词库
比如 http://pinyin.sogou.com/dict/cate/index/1
http://download.pinyin.sogou.com/dict/download_cell.php?id=15206&name=%E5%8A%A8%E7%89%A9%E8%AF%8D%E6%B1%87%E5%A4%A7%E5%85%A8%E3%80%90%E5%AE%98%E6%96%B9%E6%8E%A8%E8%8D%90%E3%80%91

本人 python 小白,抓取的时候会显示 403,估计是防盗链,然后谷歌了一些模拟浏览器的代码,发现依然是 403
最后发现我直接打开这个链接就是 403,在词库下载的页面就可以下载,想问这个用的是什么防盗链的技术啊~
有没有人帮解释一下,告诉我可能用到的东西我自己去试试也好~比如 cookie?还是什么的~html 不是没有状态的么.cookie 不是在整个浏览器里面的吗,为啥我复制链接到新 tab 下就不行了呢......
求解答~~~

5181 次点击
所在节点    程序员
15 条回复
kchum
2016-01-13 19:12:01 +08:00
你可以设置 headers 试下
yangyaofei
2016-01-13 19:13:32 +08:00
@kchum 试了~~就是加浏览器标示是吧~~没用的~~没反应...
fractal314
2016-01-13 19:23:19 +08:00
需要设置 referer 吧,话说我爬过一遍这个词库
ipeony
2016-01-13 19:34:23 +08:00
初学 python~简单暴力可以的
kchum
2016-01-13 19:47:07 +08:00
@yangyaofei 不只是 UA ,楼下说了,说不好还要 cookies
yangyaofei
2016-01-13 20:23:44 +08:00
@kchum
@ipeony
@fractal314
谢谢谢谢~~滚去写试试了~
原来 header 上这么多东西啊~~
yangyaofei
2016-01-13 20:48:48 +08:00
@kchum
@ipeony
@fractal314
成功了!最后实验了一下,只要有 referer 就好了~~~谢谢谢谢谢~~
kchum
2016-01-13 21:25:17 +08:00
@yangyaofei 楼主爬完可以分享下吗?差点忘了之前想重新弄鼠须管的词库,别人的太大,导入太卡,将就用
yangyaofei
2016-01-13 21:50:54 +08:00
@kchum
<script src="https://gist.github.com/yangyaofei/69137c0ed4dc65900808.js"></script>
好了好了~~但是有点小毛病~~加了个异常,不知道对不对~~
yangyaofei
2016-01-13 21:52:16 +08:00
@kchum
尿了~~~犯了个小错误~~~已改~~~
tkMerkava
2016-01-13 23:08:51 +08:00
恕我 python 小白,在本地运行楼主的代码还是会报错, line 32 except IOError, e: 这里
望指教
em70
2016-01-14 00:05:34 +08:00
先抓包分析,看看正常请求需要什么头
yangyaofei
2016-01-14 09:02:57 +08:00
@tkMerkava 我的没报错,我用的 python2
tkMerkava
2016-01-14 09:23:09 +08:00
@yangyaofei 好吧。。我换 python2 试试
lszxlong
2017-04-26 11:13:43 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/250523

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX