郁闷,折腾了一周的爬虫

2024-08-26 17:50:07 +08:00
 guoguobaba

辛辛苦苦解码 js ,绕开反爬机制,结果他认证的时候加了个手机实名,我艸。

5952 次点击
所在节点    Python
28 条回复
ccloving
2024-08-26 17:51:17 +08:00
用影刀
littleG
2024-08-26 17:54:14 +08:00
爬虫写的好,牢饭少不了。
4BVL25L90W260T9U
2024-08-26 17:57:01 +08:00
国内的网站还是别搞了,现在已经完全没有任何法治可言了,惹急了人家给上边塞点钱,你这就是破坏计算机信息系统安全罪。
guoguobaba
2024-08-26 18:00:34 +08:00
@ospider 我做的是 rpa ,客户自己存用户名密码啊
4BVL25L90W260T9U
2024-08-26 18:02:40 +08:00
@guoguobaba #4 so ?我的意思就是现在你讲道理已经讲不明白了……
privateproxies
2024-08-26 18:03:54 +08:00
哈哈 1 千头 草泥马 汹涌而来
julyclyde
2024-08-26 18:04:10 +08:00
@ospider 你觉得“不想被爬”是违法的吗?
yanw
2024-08-26 18:05:12 +08:00
@guoguobaba 可以了解下相关判例
macaodoll
2024-08-26 19:37:39 +08:00
手机号注册吗?好多家接码平台,随便搞的
yb2313
2024-08-26 19:44:36 +08:00
人家隔几天规则一换, 你又要重新搞, 爬虫, 最没有成就感的工作, 应该让 ai 来做 js 逆向
happybabys
2024-08-26 19:46:53 +08:00
高端的食材只需要简单的烹饪
somebody1
2024-08-26 20:33:44 +08:00
到解码 js 的时候就该用 playwright ,selenium 这种快速搞定,自己的时间比机器的资源值钱
guoguobaba
2024-08-26 20:47:02 +08:00
@somebody1 selenium 也需要解 js 啊,瑞数了解一下
somebody1
2024-08-26 21:45:14 +08:00
@guoguobaba #13
不用你解,直接从页面抓取结果
xinghusp
2024-08-26 22:33:59 +08:00
@guoguobaba 兄弟 别搞了。我正在经历这破事,甚至于对方公司都没有报案也不愿意配合作证,这帮人为了 KPI 还是硬要定罪。我这还是公开接口调用,也无反爬机制。
fbichijing
2024-08-26 23:53:48 +08:00
@yb2313 我倒觉得适度的爬虫是很有存在的必要性的,至少对个人来说是这样,可以节省很多劳力和时间。至于 js 逆向花的时间就感觉意义较低。验证码我就觉得根本没时间和精力去搞它,客观上都跟不上它的变化速度。这种过于被动的东西就极其难以提起欲望。
jianchang512
2024-08-27 00:28:08 +08:00
国内即便你遵守 robots.txt, 也一样可能吃牢饭
NoOneNoBody
2024-08-27 00:38:50 +08:00
最近在重拾前端做自动化,一些网页或网站打开就自动提取信息
不过倒不是爬大量页面,就是打开哪个是哪个,减少一顿 select ctrl-c open ctrl-v close 的手工操作而已

爬虫还是要找些机器一起爬才行,单机单 ip 遇到 5 秒反爬确实搞不了,我以前都是爬外站多,没什么线下问题,最多把我“升级”称为“中国黑客”,笑
zeusho871
2024-08-27 01:04:42 +08:00
不要实名的话 这个框架好一点 drissionpage
playwright selenium 有特征 不用去特征版本的就会被检测
WeaPoon
2024-08-27 01:53:25 +08:00
@xinghusp #15 哎。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1067921

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX