大佬们,有什么好用的开源网页正文提取的库

93 天前
 rizon
现在有一个需要提取网页正文的需求。大佬们有什么觉得很好用的开源库啊。

另外开源知识库产品也求个推荐。

想要做一个网页爬取,正文提取,然后到知识库,最后 api 输出的组合。

谢谢大佬们
3004 次点击
所在节点    程序员
17 条回复
zuoyouTU
93 天前
如果目标页面格式清楚,用 selenium 或者 pytesseract 简单定制一下应该可以
前者拿明文后者用 ocr 拿其他的
zqjilove
93 天前
gen 。github 、v2 里搜索一下,好像还是 v 友开发的。
wbrobot
93 天前
国外好用的都是收费 API
国内以前有一个,后来没有了
开源的需要自己改的东西太多了,以后有基于 AI 的可能会好很多
Cloud200
93 天前
Cloud200
93 天前
rizon
93 天前
我本以为正文提取的库挺多的,结果查了一下发现,这条路好像还没有趟的很好啊。目前看到一个最简单的方法就是基于标签的密度。
FrankAdler
93 天前
itskingname
93 天前
itskingname
93 天前
DTCPSS
93 天前
rizon
93 天前
@FrankAdler #7 对对对,就是这个思路,那些各类网页阅读器的思路。我试试这个如何
rizon
93 天前
@DTCPSS #10 这个看着蛮好用的诶,感谢兄弟。 火狐真棒,哈哈
oaa
93 天前
1 ) Readability ,https://github.com/mozilla/readability ,是一种基于规则的方法,被 Mozilla Firefox 浏览器的阅读模式使用,它通过检查 HTML 元素的标签名称、文本数量、链接密度以及满足主要内容标准的文本模式来提取主要内容

2 ) DOM Distiller ,https://github.com/chromium/dom-distiller ,是 Google Chrome 浏览器的阅读模式,它是一种混合方法,使用了 Boilerpipe 分类器和一些规则,有点类似于 Readability

3 ) Web2Text ,https://github.com/dalab/web2text ,是基于深度神经网络的分类器,使用了 CNN 模型和包括单词计数、标点符号存在和停用词数量等 128 个结构和文本特征来确定每个文本块是否属于主要内容

4 ) Boilernet ,https://github.com/mrjleo/boilernet ,是基于深度神经网络的分类器,使用 LSTM 将网页的文本节点视为由单词和 DOM 树根路径组成的文本块序列
好像还有个啥论文。。
via https://twitter.com/Barret_China/status/1729889136520335606?s=20
Immortal
93 天前
rod
chingyat
93 天前
dyllen
92 天前
之前不记得哪里看的,哪些聚合网站好像是有用的密度分析方法做的。
zqjilove
92 天前
目前最靠谱的就是用 gpt

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1014573

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX