有人喜欢写爬虫用浏览器扩展来实现的吗?

241 天前
 s2555

要爬网页的时候,每次用 python 写都是容易跳出验证,有些要登录的更麻烦,后来我发现写浏览器扩展,直接操作当前的页面好像不用考虑那么多情况,爬到的数据直接发到接口处理。所以问下大家,我这个是 Python 用得不好,技能点歪了吗?

4376 次点击
所在节点    Python
43 条回复
s2555
241 天前
@cyhlnj 分析好页面,chatgpt 直接写好了,再改改就行了。
s2555
241 天前
@freewind 我很早也做过这样的啊,很多网页直接屏蔽了
s2555
241 天前
@fidcz123 目前没试过不生效的,这个基本等于鼠标操作了
cutecore
241 天前
一样,难搞的会用浏览器,用 Bulk URL Opener 和 Tampermonkey 来做。
s2555
241 天前
@TimePPT playwright 打开的浏览器就跟新开的浏览器啊,没有登录状态
s2555
241 天前
有些网站我只要模拟点击下一页,然后拦截请求,就可以获取那些 api 的数据,但是有很多不行,半桶水水平。
s2555
241 天前
@callmejoejoe 用 python 模拟的话也要开着电脑啊,而且你还不能干别的了,浏览器扩展的话,我只要开着那个网页就行了。
dawn009
241 天前
@mumbler
@kkk1234567

无头浏览器能被反爬检测到。真实浏览器最省心,反正个人使用也不需要很高的效率,足够了
Chatterleys
241 天前
简单的可以,但是风控都很难过,我平常做扩展类工具比较多,电商类的自动化工具
soar0712
241 天前
我用 java 多,我的解决办法
1 、不复杂的话,用 java 操作无头浏览器,能抓住八成的数据;
soar0712
241 天前
@soar0712 2 、更复杂的,直接用 java 操作 robot 接管键鼠,模拟人工取数据
cctv6
241 天前
哈哈,我之前做了一个,写着玩的没开源。

浏览器装上了插件之后,会同步当前的 tab 到服务端,用 websocket 个服务器同步状态。

服务器会下发命令,执行 js ,获取网页内容等等。

服务端下发任务的时候,可以随机分配任务到连接的客户端上,执行分布式任务。。

做出来了之后特别像后门软件,可以在没有察觉的情况下监控浏览器的上网情况。。。
NerdHND
241 天前
abigeater
240 天前
用油猴写 教会怎么用油猴就好, 浏览器扩展没发布得启用开发者模式,教别人安装这个太麻烦了不同浏览器的扩展打包也麻烦
s2555
240 天前
@cdlnls 牛的
@NerdHND 感谢,看了对我来说太麻烦了。
@abigeater 我了解一下
macaodoll
240 天前
我选择直接定制浏览器,
zbowen66
240 天前
@s2555 #25 明明可以把所有状态 cookies ,storage 等储存到不同 JSON 文件,启动的时候可以加载不同文件,方便地一批
s2555
240 天前
@zbowen66 🙏感谢,deepseek 了一下,完全明白了
guaguaguaxia1
240 天前
不管黑猫白猫
iorilu
240 天前
插件怎么个玩法, 有没有开源得参考下

有时候也想爬点数据

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1112944

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX