开源一个正文抽取的微服务

2015 年 11 月 9 日
 ququzone

一个正文抽取的微服务,目前采用的算法是行块密度算法,大概测试了一下,可以抽取大部分的网页正文,但是效果还不是很理想,打算再用 Readability 再实现一遍。
项目用到了下面一下技术,感兴趣可以一起改进一下

  1. Spring Boot
  2. Restful API
  3. React

项目地址 https://github.com/ququzone/smart-extractor

2387 次点击
所在节点    程序员
6 条回复
kikyous
2015 年 11 月 9 日
微信的优化阅读不知道用什么做的,效果很棒
domty
2015 年 11 月 9 日
已 fork, 就当 spring-boot 学习教材了
ququzone
2015 年 11 月 9 日
@kikyous 微信的算法应该是参考了 Readability ,这个算法有 js 的实现,我打算转成 java 放到这个项目中
zts1993
2015 年 11 月 9 日
看上去可以啊,回头看看
ququzone
2015 年 11 月 10 日
@domty spring-boot 很简单的
domty
2015 年 11 月 10 日
@ququzone
正在看文档,感觉还行,有个 demo 上手能快点

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/234825

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX