淘宝反爬求解

frogex

2019-01-17 15:15:24 +08:00

@ioven app 的逆向就要破协议了，这个我更加没经验，有什么方法吗

5200

2019-01-17 15:23:22 +08:00

@frogex 你目前是使用什么方式的呢，
我之前也尝试过很多种工具和语言方法，
有些工具就连登录都过不了，
淘宝里面的检测方法多得很，
也没精力去一个一个研究，
最后就使用脚本类，模拟键盘鼠标，
这个网页端肯定是检测不到的，
目前稳定运行了半年多了。

frogex

2019-01-17 15:50:24 +08:00

@5200
你这个用按键精灵？感觉更不好稳定吧，如果位置什么的有偏差就做不了啊
我目前是
1.selenium + chrome headless，爬列表页面，价格等数据有小几率获取，获取不到的记录-1。
2.另外启 selenium + chrome noheadless，随机获取-1 的数据循环重新请求价格，销量。
3.cookie 每天更换一次，chrome noheadless，每天早上 9 点爬虫会更新 cookie，时间不对（不是当天的 cookie ）就手动扫码获取 cookie

如果 1 爬完了，2 这里还有大量的-1 记录，我就有点慌了，会不停的手工获取 x5sec 的数据直接抓接口了

murmur

2019-01-17 15:50:59 +08:00

淘宝的代码里会检查 webdriver 的标志需要重新编译改变量名

frogex

2019-01-17 15:56:12 +08:00

@murmur
这些在问题里都提到了，都做过了啊

farverfull

2019-01-17 16:44:16 +08:00

我也在其他地方遇到一样的滑块验证，只要是 selenium 调用的浏览器都无法划过去，挠头。结果也是用了 @5200 的方法干，不太稳定就是

5200

2019-01-17 17:14:18 +08:00

@frogex AHK 类似按键吧，位置什么的多一点判断就行，
有些位置比较不好识别我直接使用谷歌的控制台。
之前我也是 selenium + chrome headless，但是始终过不了登录的检测，
只要通过 selenium 启动起来的 chrome，就算手动登录那个滑块也通过不了。
反正之前折腾了一个星期也算是解决了。
中间偶尔位置有偏差的就修修补补了，现在也算能稳定了。
不过还在寻求新的更好的方法。

locoz

2019-01-17 17:41:15 +08:00

@ioven #19 hhhhhhhhh 阿里的 APP 只会更难，不会更容易。阿里系 APP 通用加密头了解一下

frogex

2019-01-17 19:25:59 +08:00

@5200
阿西吧，这样也就必须一台机器前台运行了吧，如果抓取量大了就很慢了。另外，你是怎么获取数据？

yangsi

2019-01-18 04:36:25 +08:00

在虚拟机里面运行和前台运行有区别吗？还有能不能用其他浏览器？

ioven

2019-01-18 08:22:47 +08:00

@locoz 忘了还有这玩意。。。

yumenlong

2019-01-18 09:16:57 +08:00

换 pyqt 或者其他的非 selenium 驱动浏览器方案可以过检测

frogex

2019-01-18 09:34:41 +08:00

@yangsi
当然可以，主要是不能确定靠什么检测的，试过 PhantomJS 也是不行

frogex

2019-01-18 09:35:43 +08:00

@yumenlong
不会 pyqt，不过应该不只是 selenium 的问题，光看 taobao 的 js 就有 chromedriver 的指纹检测

yinaqu

2019-01-18 09:43:44 +08:00

兄弟，你是写 java 还是 python。

lkwfive

2019-01-18 09:57:57 +08:00

win10 和 OS_x 用 puppeteer 亲测自动登录有效

frogex

2019-01-18 10:02:59 +08:00

@yinaqu
工作很多年了，90%时间写 C++

frogex

2019-01-18 10:08:23 +08:00

@lkwfive
没试过这个，有空试下吧，不过用什么工具 taobao 应该还是都会检测的

soulmine

2019-01-18 10:12:03 +08:00

反爬这东西你觉得 tb 有多少人在搞

yinaqu

2019-01-18 10:29:24 +08:00

@frogex 过滑块之前只检测了 navigator.webdriver 这个特征，最近 TB 更新了验证，只改这个特征不行了。然后呢，可以很明确的说过不了滑块并不是因为 selenium 被检测到，而是 webdriver 的某些特征被检测到了（即使非 headless 用手拖也过不了），因为我使用的一款工具底层使用 selenium 但是可以过滑块。