正文提取的库（算法），大家有成熟的解决方案么

2016 年 9 月 2 日

phithon

想求一个提取文章正文的库或算法， python 的。
主要用在采集上，采集下来的东西准备去掉没用的头和尾，只保留正文。印象笔记有个浏览器扩展，点一下自动采集正文的，感觉准确度还不错，不知道 python 有此类解决方案没有？

6066 次点击

所在节点

Python

15 条回复

binux

2016 年 9 月 2 日

http://lmgtfy.com/?q=%E6%AD%A3%E6%96%87%E6%8F%90%E5%8F%96%E7%9A%84%E5%BA%93+python

qq316107934

2016 年 9 月 2 日

@binux 哈哈哈，笑死了

northisland

2016 年 9 月 2 日

找个 apache tika 教程看看，符不符合需求

HFcbyqP0iVO5KM05

2016 年 9 月 2 日

搜啦，点开第一个又到这里来了😂

Yinz

2016 年 9 月 2 日

讲道理 V2EX 的 SEO 是真的强

liteneo

2016 年 9 月 2 日

readability

zero0x00

2016 年 9 月 2 日

p 牛~

dcsite

2016 年 9 月 2 日

这是月经贴吗？每个月都有人问这个问题~

TKKONE

2016 年 9 月 2 日

@binux 6666 这个那么牛逼

Matrixlee

2016 年 9 月 2 日

@binux 笑死啦

bearsiji

2016 年 9 月 2 日

https://github.com/codelucas/newspaper/
不谢

kepenj

2016 年 9 月 2 日

@binux 6666

Chyroc

2016 年 9 月 2 日

@Yinz 讲道理，在 v 站发了个帖子，过了几分钟去 google 答案，直接搜到了自己的帖子

Owenjia

2016 年 9 月 4 日

也可以试下 newspaper 的，准备加功能了么这是……

phithon

2016 年 9 月 4 日

@Owenjia wiki.ioin.in 新功能已经加上了，把链接都采集一下，用的 readability ，不过还是有些误差，需要自己对源码稍微修改

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/303361

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.