正文提取的库(算法),大家有成熟的解决方案么

2016 年 9 月 2 日
 phithon
想求一个提取文章正文的库或算法, python 的。
主要用在采集上,采集下来的东西准备去掉没用的头和尾,只保留正文。印象笔记有个浏览器扩展,点一下自动采集正文的,感觉准确度还不错,不知道 python 有此类解决方案没有?
6066 次点击
所在节点    Python
15 条回复
binux
2016 年 9 月 2 日
qq316107934
2016 年 9 月 2 日
@binux 哈哈哈,笑死了
northisland
2016 年 9 月 2 日
找个 apache tika 教程看看,符不符合需求
HFcbyqP0iVO5KM05
2016 年 9 月 2 日
搜啦,点开第一个又到这里来了😂
Yinz
2016 年 9 月 2 日
讲道理 V2EX 的 SEO 是真的强
liteneo
2016 年 9 月 2 日
readability
zero0x00
2016 年 9 月 2 日
p 牛~
dcsite
2016 年 9 月 2 日
这是月经贴吗?每个月都有人问这个问题~
TKKONE
2016 年 9 月 2 日
@binux 6666 这个那么牛逼
Matrixlee
2016 年 9 月 2 日
@binux 笑死啦
bearsiji
2016 年 9 月 2 日
kepenj
2016 年 9 月 2 日
@binux 6666
Chyroc
2016 年 9 月 2 日
@Yinz 讲道理,在 v 站发了个帖子,过了几分钟去 google 答案,直接搜到了自己的帖子
Owenjia
2016 年 9 月 4 日
也可以试下 newspaper 的,准备加功能了么这是……
phithon
2016 年 9 月 4 日
@Owenjia wiki.ioin.in 新功能已经加上了,把链接都采集一下,用的 readability ,不过还是有些误差,需要自己对源码稍微修改

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/303361

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX