开发了一个自动识别 HTML 列表的算法,感觉离智能爬虫又近了一步

2020-09-08 17:27:48 +08:00
 tikazyq

话不多说,下面给几个主流网站列表页的识别效果。

可以看到,列表基本都识别出来了,一些列表子项( List Item )的字段也标注出来了。这个算法还支持分页的识别。如果进一步优化,甚至可以做到网络爬虫中的自动驾驶,输入一个坐标(网站 URL )就可以自动抓数据,不需要写 XPath 各种抓取配置规则。做到这一步,说明离智能爬虫就不远啦。

算法不是基于 OCR 的,因此非常快,后续会进一步优化,欢迎大家提意见。

4545 次点击
所在节点    分享创造
38 条回复
sillydaddy
2020-09-08 17:58:02 +08:00
这个做好了就再也不怕网站改版改 html 了!!是基于什么实现的呢?
盲猜一下,应该不是基于深度学习,但也应该不是基于渲染的位置什么的。
猜不出来。。
yunser
2020-09-08 19:03:54 +08:00
@sillydaddy 列表有个共同特征,就是子元素的结构基本一致,我猜是根据这个判断的。还有 ul li 。
guyskk0x0
2020-09-08 19:05:20 +08:00
很赞!开源吗?还是接口服务?
louettagfh
2020-09-08 19:32:14 +08:00
开源吗 之前想基于 OCR 搞一个
tikazyq
2020-09-08 19:52:57 +08:00
@sillydaddy 是的,解决的就是这个问题,但既不是根据深度学习也不是根据渲染位置,是非常简单的算法
tikazyq
2020-09-08 19:53:21 +08:00
@yunser 思路基本正确,不过实现要稍微复杂一些
tikazyq
2020-09-08 19:53:49 +08:00
@guyskk0x0 暂时不打算开源,可能会暂时做成 api 供测试
tikazyq
2020-09-08 19:54:02 +08:00
@louettagfh 同上
bojue
2020-09-08 19:55:20 +08:00
@tikazyq 不是有自动解析 dom 元素算法,爬虫解析识别图片,文字,链接,然后全网爬
marcushbs
2020-09-08 19:55:41 +08:00
想起了逝去的 Kimono
tikazyq
2020-09-08 20:09:25 +08:00
@bojue 我记得后羿采集器可以,但也没公开算法,而且貌似收费,目前至少开源做的很准的还是比较少
tikazyq
2020-09-08 20:10:00 +08:00
@marcushbs 可惜了,不过 kimono 也不完全自动化,需要一些监督,当时是个不错的产品
Tianyan
2020-09-08 20:13:59 +08:00
爬来爬去把搜索引擎搞成了垃圾搜索引擎
bojue
2020-09-08 20:17:10 +08:00
@tikazyq 那倒是,之前看头条招聘爬虫 JD
heiheidewo
2020-09-08 20:17:12 +08:00
如果是我写的那种不规范的 html 看楼主怎么识别
tikazyq
2020-09-08 20:23:13 +08:00
@Tianyan 现在主流搜索引擎都有比较健全和复杂的算法来规避垃圾内容了,除非你用的是垃圾搜索引擎
tikazyq
2020-09-08 20:23:34 +08:00
@bojue 他们也做智能爬虫?
tikazyq
2020-09-08 20:24:10 +08:00
@heiheidewo 爬虫开发者最怕你这样的前端杀手
mscb
2020-09-08 20:57:31 +08:00
啥原理?用上类似于 yolo 这类深度学习的技术吗?
tikazyq
2020-09-08 21:03:02 +08:00
@mscb 不是深度学习哦,算法其实还比较简单

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/705259

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX