jeeyong 最近的时间轴更新
jeeyong

jeeyong

V2EX 第 24530 号会员,加入于 2012-07-31 00:31:28 +08:00
上海地区, 找一家长期合作的综合布线施工方.
上海  •  jeeyong  •  67 天前  •  最后回复来自 jeeyong
5
关于 windows 不能开启机械硬盘写入缓存的问题.
问与答  •  jeeyong  •  87 天前  •  最后回复来自 jeeyong
3
有多台主机,性能不错,有什么变现的路子嘛?
问与答  •  jeeyong  •  87 天前  •  最后回复来自 jeeyong
20
申请公网 IP, 半年多了, IP 没变过??
宽带症候群  •  jeeyong  •  284 天前  •  最后回复来自 shadownet
37
jeeyong 最近回复了
2 天前
回复了 vsean 创建的主题 Python M1 芯片 Macbook 无法运行 py 程序,求帮助
选一个正确的安装方式吧...
我之前发过一个安装 brew -> pyenv -> python 的记录...
https://www.v2ex.com/t/739083#reply5
2 天前
回复了 sengxian 创建的主题 程序员 求指路淘宝爬虫姿势
@jeeyong 小朋友吃饭去了..
除此之外, 还可以通过 crx 插件及 js 的方式去替换掉显卡的特征..
但这些做法相对比较局限, 大规模爬取的时候还是很容易被识别出来...
相对来说, 淘宝有个好处是, 他发现你是人机, 他会要求你验证..
但是像百度, 他只是在后台默默的标记上本次访问无效...这个很难受的.
还有字节, 他是直接不给你内容, 抑或是使用蜜罐类的技术防止你爬取.
有些网站甚至发现你是爬虫后, 直接给你假的, 没有意义的内容...
我想转行...有大佬收留吗?哈哈哈
相比技术, 我也挺擅长销售和管理的...
2 天前
回复了 sengxian 创建的主题 程序员 求指路淘宝爬虫姿势
我有社交牛逼症, 我再来多 BB 几句..
首先, 我没有任何业务是爬取淘宝的. 但是从技术角度做过验证, 发现可行. 仅此而已.
本文并未透露关于爬取淘宝的任何技术细节和技术方案, 旨在讨论人机识别技术.

淘宝在人机识别方面会更深入的做技术甄别, 通过发现更多的技术特征, 从而直接进行访问阻断或验证.
比如早期的时候, 他是我接触的相对较早去获取$_cdc 变量判断是否为爬虫的.
后来发展成为通过获取更多的特征, 来判断. 这应该是属于 v8 解析 js 的时候的引擎的特性吧? 我不太懂 js, 仅限于普通的应用层面. 我贴一部分代码, 看看做爬虫的时候, 你关注了多少.

var platform = 'iPhone'
var webdriver = false
var standalone = false
var maxTouchPoints = 5
var cookieEnabled = true
var productSub = 20030107
var product = "Gecko"
var vendor = "{vendor}"
var vendorSub = ""
var onLine = true
var hardwareConcurrency = undefined
var oscpu = undefined
var cpuClass = undefined
var doNotTrack = undefined
var getBattery = undefined
var storage = undefined
var systemLanguage = undefined
var permissions = ["geolocation", "notifications"]
var bluetooth = undefined
var standalone = undefined
var userAgent = "{userAgent}"
var shanghai = {{"longitude": 0, "latitude": 0}}
var zhongshan = {{"longitude": 0, "latitude": 0}}
var hangzhou = {{"longitude": 0, "latitude": 0}}

这些变量大部分是系统内置的变量, 在你加载页面的时候他就有了...
但是改变他的时候不能直接赋值, 这个 JS 大佬应该更清楚, 我只是知道...
需要通过 Object.defineProperty 方法去改变...

小朋友太闹了...我得哄娃去了..哈哈哈
2 天前
回复了 sengxian 创建的主题 程序员 求指路淘宝爬虫姿势
@gamexg 破坏计算机信息系统罪 及 非法入侵计算机信息系统罪.
2 天前
回复了 sengxian 创建的主题 程序员 求指路淘宝爬虫姿势
首先...你要学习如何编译 chromedriver. 然后要去掉哪些特征. $_cdc 这种基本无所谓了现在.
其次, 你要学会如何用 js 去伪造和去掉很多特征, 有些原生函数还要重写.
举个例子, 当你用 https 协议(ios 必须是此协议, http 不行.)获取设备的地理位置信息时, 可以尝试观察他的变化特征.
而你用爬虫的时候, 是否注意到这个问题. 这个例子仅限于移动设备模式, pc 端貌似不用考虑.
然后才考虑到代理, 行为模式这类问题.
我说的很含糊..因为这个技术弄明白了很香啊....
网上也基本不会有关于第一, 第二条的相关知识. 都闷着自己做事呢.
那个....Python 可以做移动端..kivy
@jeeyong 而且都是固态硬盘 2TB nvme SSD. 每个 2 块
所以你们现在讨论好了吗?
我有 20 台他这个配置的机器...
谁想远程开发一下子?
是不是等赚够了钱, 再吃好点?
是不是等赚够了钱, 再穿好点?
是不是等赚够了钱, 用的好点?
什么时候赚够钱? 也许一辈子都不能.
关于   ·   帮助文档   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4086 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms · UTC 06:41 · PVG 14:41 · LAX 23:41 · JFK 02:41
♥ Do have faith in what you're doing.