爬虫如何快速爬取某搜索 api 中所有数据？

2019-05-22 19:07:38 +08:00

qfdk

有个小小的需求，有一个搜索引擎专门搜索到公司信息的列表比如 baidu 会出现相关百度公司的信息. 那么问题来了如何快速爬(复)取(制) 这里面的所有数据呢？那搜索 api 全文匹配。。

思考的方法以 a-z 为关键字模糊匹配然后去重复入库？

不知道老哥们有没有更风骚的方法

3349 次点击

所在节点

程序员

15 条回复

tikazyq

2019-05-22 19:28:12 +08:00

听说过 xpath 和 css selector 么，爬虫没有这些基本干不了活，除非是用正则匹配。想了解更多爬虫么，关注一下开源爬虫平台 Crawlab 吧，github: http: // github. com/tikazyq/crawlab

qfdk

2019-05-22 19:53:30 +08:00

@tikazyq #1 你没有明白这个问题，相当于一个搜索框要把里面存在的关键词都搞出来关键词都是公司的名字

tomczhen

2019-05-22 19:57:57 +08:00

技术我不懂，但是怎么判断爬取到的数据就是所有数据呢？

newtype0092

2019-05-22 20:00:47 +08:00

你这相当于盲猜啊，都不知道有哪些公司怎么搜？
可以从其他渠道获取一个公司列表，然后作为 key 用这个 api 去查。

qfdk

2019-05-22 20:03:28 +08:00

@newtype0092 #4 对的就是盲猜所以想用 a-z 的方法因为都是外国公司

hakono

2019-05-22 20:18:04 +08:00

搂住你自己都给出了解决办法了。

qfdk

2019-05-22 20:24:11 +08:00

@hakono #6 我是想问问有没有更高端的办法

lbfeng

2019-05-23 03:24:12 +08:00

@tikazyq 爬 API 不是页面

lbfeng

2019-05-23 03:27:06 +08:00

@qfdk 这样对服务器算攻击吧。

LukeChien

2019-05-23 03:34:32 +08:00

ES Query 注入

qfdk

2019-05-23 04:32:41 +08:00

@LukeChien #10 java 写的后端是 wildfly 服务器

@lbfeng #9 应该不算吧，但是这个爬的好奇葩 https://www.infogreffe.fr/recherche-siret-entreprise/resultats-recherche-siret-entreprise.html 这个搜索页面拿数据好困难找到 api 但是各种奇葩

dengtongcai

2019-05-23 08:48:13 +08:00

f12 右键，copy selector …

zdnyp

2019-05-23 09:47:33 +08:00

首先你要有企业名称的数据，然后调搜索的接口，采集入库

qfdk

2019-05-23 13:44:28 +08:00

@dengtongcai 我知道但是这里不好用

qfdk

2019-05-23 13:44:58 +08:00

@zdnyp 目的是盲猜不过目的已经达到了

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/566683

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.