爬虫如何快速爬取某搜索 api 中所有数据?

2019-05-22 19:07:38 +08:00
 qfdk

有个小小的需求, 有一个搜索引擎专门搜索到公司信息的列表 比如 baidu 会出现相关 百度公司的信息. 那么问题来了 如何快速爬(复)取(制) 这里面的所有数据呢? 那搜索 api 全文匹配 。。

思考的方法以 a-z 为关键字 模糊匹配 然后去重复入库?

不知道老哥们有没有更风骚的方法

3049 次点击
所在节点    程序员
15 条回复
tikazyq
2019-05-22 19:28:12 +08:00
听说过 xpath 和 css selector 么,爬虫没有这些基本干不了活,除非是用正则匹配。想了解更多爬虫么,关注一下开源爬虫平台 Crawlab 吧,github: http: // github. com/tikazyq/crawlab
qfdk
2019-05-22 19:53:30 +08:00
@tikazyq #1 你没有明白这个问题,相当于一个搜索框要把里面存在的关键词都搞出来 关键词都是公司的名字
tomczhen
2019-05-22 19:57:57 +08:00
技术我不懂,但是怎么判断爬取到的数据就是所有数据呢?
newtype0092
2019-05-22 20:00:47 +08:00
你这相当于盲猜啊,都不知道有哪些公司怎么搜?
可以从其他渠道获取一个公司列表,然后作为 key 用这个 api 去查。
qfdk
2019-05-22 20:03:28 +08:00
@newtype0092 #4 对的 就是盲猜 所以想 用 a-z 的方法 因为都是 外国公司
hakono
2019-05-22 20:18:04 +08:00
搂住你自己都给出了解决办法了。
qfdk
2019-05-22 20:24:11 +08:00
@hakono #6 我是想问问有没有更高端的办法
lbfeng
2019-05-23 03:24:12 +08:00
@tikazyq 爬 API 不是页面
lbfeng
2019-05-23 03:27:06 +08:00
@qfdk 这样对服务器算攻击吧。
LukeChien
2019-05-23 03:34:32 +08:00
ES Query 注入
qfdk
2019-05-23 04:32:41 +08:00
@LukeChien #10 java 写的 后端是 wildfly 服务器

@lbfeng #9 应该不算吧,但是这个爬的好奇葩 https://www.infogreffe.fr/recherche-siret-entreprise/resultats-recherche-siret-entreprise.html 这个搜索页面 拿数据好困难 找到 api 但是各种奇葩
dengtongcai
2019-05-23 08:48:13 +08:00
f12 右键,copy selector …
zdnyp
2019-05-23 09:47:33 +08:00
首先你要有企业名称的数据,然后调搜索的接口,采集入库
qfdk
2019-05-23 13:44:28 +08:00
@dengtongcai 我知道 但是这里不好用
qfdk
2019-05-23 13:44:58 +08:00
@zdnyp 目的是盲猜 不过目的已经达到了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/566683

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX