用 selenium 时,除了 phantomjs 还有哪些浏览器支持 headless mode(无桌面环境的命令行)运行?

2016-10-18 15:34:57 +08:00
 kukuwhu

在做爬虫的时候,经常碰到 requests 搞不定的时候上 webdriver ,但基于 selenium 的 chrome 必须在桌面环境运行(会弹出浏览器窗口),而用支持命令行启动的 phanjstom 请求的时候很多网页都有反爬(不知道怎么识别的),有没有其他的浏览器支持 Linux 的无窗口环境运行? firefox 之类的支持吗?谢谢

3333 次点击
所在节点    Python
11 条回复
jetyang
2016-10-18 15:55:34 +08:00
firefox 、 chrome 都可以啊,配合 Xvfb 使用。如果用 chrome 要单独安装 chromedriver , firefox 不用额外装东西,网上教程有一些,挺容易配置的
cheetah
2016-10-18 16:02:49 +08:00
ls 说的对,可以搜下 webdriver
至于 phanjstom 怎么被识别的,只能是 ua 了吧
Python 的话还可以用 ghost.py
kukuwhu
2016-10-18 16:03:09 +08:00
@jetyang 好的,非常感谢,另外再请教下,理论上用 phantomjs 通过配置 desired_capabilities 可完全模拟 chrome,但为什么我用 chrome 可打开页面,用 phantomjs 返回的是明显做了反爬的空 html 页面?除了配置 desired_capabilities 的 useragent 为 chrome 还有其他地方有差异吗?
kukuwhu
2016-10-18 16:04:36 +08:00
@cheetah 我是用的 chromedriver ,必须要在视窗界面下运行才不报错,应该是 jetyang 说的,需要配置一下 xvfb
cheetah
2016-10-18 16:05:52 +08:00
@kukuwhu 是的
jetyang
2016-10-18 16:42:46 +08:00
@kukuwhu 我没用过 phantomjs ,一直用的 webdriver 。别人防抓取的策略可能比较高级吧,比如限制单 IP 访问频次、 cookie 保持等等,爬不到正确内容要分析具体原因
relic
2016-10-18 16:53:37 +08:00
@jetyang 请教一下,下载了 chromedriver 之后还用安装 chrome 吗?如果用怎么在命令行下安装 chrome 呢?
jetyang
2016-10-18 17:44:06 +08:00
@relic 我都装了,环境是 centos ,必须 centos 7 以上才能装 chrome , yum install chrome , chromedriver 我记得是个可执行文件,下载解压就可以用了。好像还有一个坑: chrome 不能以 root 用户启动,记不清了,你试试看
gimp
2016-10-18 17:51:36 +08:00
安装 chrome 可以用这个全自动脚本,要求 Centos6 以上版本

https://chrome.richardlloyd.org.uk/
gimp
2016-10-18 17:55:10 +08:00
之前折腾的时候整理点 Xvfb 和 selenium

https://blog.ishell.me/a/selenium-with-xvfb.html
gimp
2016-10-18 17:56:07 +08:00
手抖... 还有个 https://blog.ishell.me/a/xvfb-screenshot-capture.html 稍微填了下上边的坑

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/313600

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX