爬虫效率问题

2018-06-17 18:11:49 +08:00

bestehen

行业领域
不限
人工智能区块链大数据医疗健康教育培训文娱传媒消费升级金融电子商务企业服务 VR/AR 旅游户外餐饮业房产家居汽车交通体育健身生活服务食品饮料物联网硬件游戏生产制造物流运输农业批发零售先进制造社交社区工具软件服装纺织建筑开采环保能源电力政务及公共服务科研及技术服务

下面是时间一年的循环

这样 365 天*35 行业。在 selenium 点击如何提高效率？ aiohttp ？如果是多台机器是是不是 dokcer+spalsh ？

3878 次点击

所在节点

Python

16 条回复

golmic

2018-06-17 19:11:10 +08:00

如果考虑 selenium 或者 splash 的话就不要追求效率了

bestehen

2018-06-17 19:16:29 +08:00

@golmic 现在就是点击的，因为如果每天都点击就是 365 天再加上 35 个行业，数字很大，那么 chrome 吃不消的

golmic

2018-06-17 19:18:49 +08:00

建议分析一下请求...直接请求的方式做

lhx2008

2018-06-17 19:23:53 +08:00

35 个栏目又不多，开 35 个 chrome 就 ok

bestehen

2018-06-17 19:37:03 +08:00

@golmic 分析请求加密很麻烦的，企名片短信登录什么的，很累

bestehen

2018-06-17 19:37:38 +08:00

@lhx2008 你的意思是可以用 aiohttp 做了！

lhx2008

2018-06-17 20:01:43 +08:00

@bestehen 你对 aio 有什么执念，我说的是多线程 /进程 selenium 直接干

bestehen

2018-06-18 02:01:32 +08:00

@lhx2008 你试过嘛

xpresslink

2018-06-18 15:17:02 +08:00

你都用 selenium 了就不要问效率的问题了。
你应该会 xpath 语法吧，要效率直接上 scrapy 之类，解析每个类别的 url，直接异步发送请求，要担心的不是效率问题了，而是别把人家 web 服务器给爆了。

JCZ2MkKb5S8ZX9pq

2018-06-18 18:13:11 +08:00

一直用的 requests，昨天试了下 selenium，结果被淘宝的滑块拦下了，唉。
搭车问问，有啥老版本的 ff 可以绕过 robot 模式嘛，主力用 chrome 不想降。

bestehen

2018-06-18 19:53:52 +08:00

@xpresslink 我是说再 selenium 基础上提高效率啊。365*35 这个数字很庞大啊。还有就是 2 个 365*35

bestehen

2018-06-18 19:54:23 +08:00

@JCZ2MkKb5S8ZX9pq 滑块也可以 selenium 滑动的

bestehen

2018-06-18 19:54:51 +08:00

@lhx2008 那你的意思是标签分开点击啊

beforeuwait

2018-06-19 13:50:58 +08:00

能自己撸代码模拟的，为啥非要去 selenium 呢

bestehen

2018-06-19 15:55:05 +08:00

@beforeuwait 企名片你去看看，纯接口难

lt921002191

2018-06-26 07:20:16 +08:00

能获取到请求就尽量获取请求，直接发请求效率最快

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/463749

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.