有人喜欢写爬虫用浏览器扩展来实现的吗？

要爬网页的时候，每次用 python 写都是容易跳出验证，有些要登录的更麻烦，后来我发现写浏览器扩展，直接操作当前的页面好像不用考虑那么多情况，爬到的数据直接发到接口处理。所以问下大家，我这个是 Python 用得不好，技能点歪了吗？

s2555

241 天前

@cyhlnj 分析好页面，chatgpt 直接写好了，再改改就行了。

s2555

241 天前

@freewind 我很早也做过这样的啊，很多网页直接屏蔽了

s2555

241 天前

@fidcz123 目前没试过不生效的，这个基本等于鼠标操作了

cutecore

241 天前

一样，难搞的会用浏览器，用 Bulk URL Opener 和 Tampermonkey 来做。

s2555

241 天前

@TimePPT playwright 打开的浏览器就跟新开的浏览器啊，没有登录状态

s2555

241 天前

有些网站我只要模拟点击下一页，然后拦截请求，就可以获取那些 api 的数据，但是有很多不行，半桶水水平。

s2555

241 天前

@callmejoejoe 用 python 模拟的话也要开着电脑啊，而且你还不能干别的了，浏览器扩展的话，我只要开着那个网页就行了。

dawn009

241 天前

@mumbler
@kkk1234567

无头浏览器能被反爬检测到。真实浏览器最省心，反正个人使用也不需要很高的效率，足够了

Chatterleys

241 天前

简单的可以，但是风控都很难过，我平常做扩展类工具比较多，电商类的自动化工具

soar0712

241 天前

我用 java 多，我的解决办法
1 、不复杂的话，用 java 操作无头浏览器，能抓住八成的数据；

soar0712

241 天前

@soar0712 2 、更复杂的，直接用 java 操作 robot 接管键鼠，模拟人工取数据

cctv6

241 天前

哈哈，我之前做了一个，写着玩的没开源。

浏览器装上了插件之后，会同步当前的 tab 到服务端，用 websocket 个服务器同步状态。

服务器会下发命令，执行 js ，获取网页内容等等。

服务端下发任务的时候，可以随机分配任务到连接的客户端上，执行分布式任务。。

做出来了之后特别像后门软件，可以在没有察觉的情况下监控浏览器的上网情况。。。

NerdHND

241 天前

无头浏览器爬虫可以看(这篇)[gaoconghui.github.io/2019/06/无头浏览器反爬与反反爬/]

abigeater

240 天前

用油猴写教会怎么用油猴就好，浏览器扩展没发布得启用开发者模式，教别人安装这个太麻烦了不同浏览器的扩展打包也麻烦

s2555

240 天前

@cdlnls 牛的
@NerdHND 感谢，看了对我来说太麻烦了。
@abigeater 我了解一下

macaodoll

240 天前

我选择直接定制浏览器,

zbowen66

240 天前

@s2555 #25 明明可以把所有状态 cookies ，storage 等储存到不同 JSON 文件，启动的时候可以加载不同文件，方便地一批

s2555

240 天前

@zbowen66 🙏感谢，deepseek 了一下，完全明白了

guaguaguaxia1

240 天前

不管黑猫白猫

iorilu

240 天前

插件怎么个玩法, 有没有开源得参考下

有时候也想爬点数据

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1112944

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.