深夜来吐个槽 Readability 已经两年没更新了

2015-09-25 00:30:44 +08:00
 icedx
至今 Readability 的文本抓取能力依然是第一
然而安卓客户端已经两年没更新了 还有 Bug
Pocket 不思进取 经常丢图 很多网页不能脱水 差评
2379 次点击
所在节点    分享发现
20 条回复
pandachow
2015-09-25 01:02:12 +08:00
我仿照它做了一个,加了不少规则,现在对中文网页优化好很多。已经给产品用上了,反馈也不错,过段时间打算开源。
pandachow
2015-09-25 01:22:10 +08:00
有一点比较大的区别是加了规则之后用梯度提升决策树训练的,不再是 readability 的硬规则,所以需要一些网页做训练。
adrianzhang
2015-09-25 01:40:21 +08:00
IFTTT ,粘!
missdeer
2015-09-25 06:45:34 +08:00
用 evernoteclipper
KoleHank
2015-09-25 10:37:22 +08:00
@pandachow 期待开源,支持
icedx
2015-09-25 14:46:01 +08:00
@pandachow 硬规则还好 我用的就是硬规则现在
icedx
2015-09-25 14:46:13 +08:00
@adrianzhang 求分享管道
icedx
2015-09-25 14:46:33 +08:00
@missdeer 那个只能网页端吧
iugo
2015-09-25 14:49:23 +08:00
红+沙发.
一直在用.
icedx
2015-09-25 15:03:09 +08:00
@iugo 安卓端丢条目 网页端都能看到 但是就是在安卓端显示不出来 浑身难受
missdeer
2015-09-25 15:09:02 +08:00
@icedx 抓了网页就进 Evernote 了呀
iugo
2015-09-25 15:51:27 +08:00
@icedx 我没有直接使用. 是通过 Reeder 或 gReader 使用的. 当时觉得这家伙 API 一定很棒.
pandachow
2015-09-25 15:54:41 +08:00
@icedx general 来说,正文准确率还可以。但是硬规则过滤的结果其实非常依赖前端的规范与否,此时如果发现某几个网页结果不好的时候,多数情况只能单独为它加规则或者改让前端改网页,维护和修改成本不低。

机器学习的好处在于如果不好,就拿这个网站的几个页面专门训练,直到算出来结果正确为止,最多会维护几个模型而已,。。。
icedx
2015-09-25 16:42:13 +08:00
@missdeer yep 但是只能在浏览器里抓吧… 我想丢一个链接进去 我记得是做不到
icedx
2015-09-25 16:42:51 +08:00
@iugo 求方法 我试过 gReader 但是条目还是丢 然而苹果客户端不丢
icedx
2015-09-25 16:46:05 +08:00
@pandachow 训练模式赞一个
我一般都是从人的角度考虑的 为什么人能认出正文这样
然后辅以数学的方法 缺点就是精度细节不够
比如吧 切胡萝卜 我的方法可以把头尾直接切掉 每次离最好的情况差一点点
adrianzhang
2015-09-25 16:48:15 +08:00
@icedx 不需要分享的吧?有很多公共的 readability 2 pocket 一类的 receipts.
icedx
2015-09-25 16:50:30 +08:00
@adrianzhang 去搜下😂
adrianzhang
2015-09-25 16:52:49 +08:00
pandachow
2015-09-25 17:09:31 +08:00
@icedx 对的,从人的角度去出发是无比正确的逻辑。之前还有一个实验性的项目很有趣,是根据人眼停留时间来学习,但是好像没有下文……

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/223497

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX