搜狗微信反爬虫又升级啦

2016-07-13 11:02:05 +08:00
 hansnow

各位在爬搜狗微信数据的童鞋,你们的爬虫还正常吗?

6123 次点击
所在节点    问与答
15 条回复
simapple
2016-07-13 11:24:53 +08:00
从来就没正常过,直接调取浏览器 频率稍快一点 就出验证码,交流一下 你是用什么方式
defia
2016-07-13 11:25:55 +08:00
hint:referer
hansnow
2016-07-13 11:26:05 +08:00
@simapple 我之前就用最普通的方式, requests 的 session 加上 ua ,然后直接请求就可以。。因为我量比较小,所以之前完全没遇到障碍。。
imnoname
2016-07-13 11:33:29 +08:00
有偿提供封装微信 app 公众号搜索数据的接口,有需要的吗?
ytmsdy
2016-07-13 11:40:59 +08:00
@defia 哈哈哈哈哈哈。。。
defia
2016-07-13 11:44:55 +08:00
@ytmsdy 咋..
ibugeek
2016-07-13 11:45:37 +08:00
基本上已经放弃了微信公众号的阅读了,阅读体验非常的不好,还不如去读书呢
pyufftj
2016-07-13 12:17:19 +08:00
stcasshern
2016-07-13 12:20:46 +08:00
求解释~
gonewithsin
2016-07-15 12:21:20 +08:00
@defia 爬虫获取的网址是正确的,但是因为 referer 的关系,没法从第三方的网站中直接打开这个网址(会报错),请教下这种情况有什么办法?无法通过修改浏览器来伪造 referer ,因为是要在微信内嵌浏览器中打开这个网址。
defia
2016-07-15 15:26:14 +08:00
@gonewithsin 自己把里面文章爬出来重新生成列表,不过现在好像是拿不到永久连接,会过期了
hansnow
2016-07-15 15:35:23 +08:00
@defia 在页面里的 msg_link 这个变量里保存的链接貌似不会过期,比如这种: http://mp.weixin.qq.com/s?__biz=MzA3NjI3MjgwNQ==&mid=2650452902&idx=2&sn=ea8d1fc3b7aba257d4ad3250197bebfd#rd
defia
2016-07-16 00:20:34 +08:00
@hansnow 因为我是帮朋友抓的,自己不太关注这方面除非出问题了.我看了下,我代码里也是抓这个的,但是我朋友反映好像会过期,具体就不清楚了,回头有空找他问问
sicklife
2016-07-29 15:26:05 +08:00
我可能是少数在做微信全站爬虫的人之一。。。。
neomaidasi
2016-09-02 19:19:11 +08:00
@imnoname 请联系我 neomaidasi@gmail.com

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/292165

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX