有人知道印象笔记的 Chrome 插件剪藏的实现原理么？

2016 年 3 月 31 日

flyslow

如题， Chrome 插件的剪藏插件可以把网页的内容剪下来存入到一片笔记中，对于技术资料的收集简直是一大利器。

因为网上的网址可能不会永久存在，但是剪藏下来，就不会怕网址无法访问而丢失原来的内容了。而且也方便自己做知识的管理。

对于这个剪藏插件的原理和算法特别好奇，想知道它是如何识别网页正文、识别广告的呢？有知道的同学吗？

附 2 张图：

7187 次点击

所在节点

9 条回复

pheyer

2016 年 3 月 31 日

你解压 crx 看一下它的源码不就知道了吗

pheyer

2016 年 3 月 31 日

也不是一直很可靠，其实一般来说我都是选中文字再进行剪藏的

flyslow

2016 年 3 月 31 日

@pheyer 解压看过，全部是混淆的代码，不是非常清晰。

morvencao

2016 年 3 月 31 日

貌似是给标签打分。

flyslow

2016 年 3 月 31 日

@morvencao 猜测还是有相关的分析？

towser

2016 年 3 月 31 日

正文提取算法，做爬虫也能用到。

nameryan

2016 年 3 月 31 日

现在 V2 的帖子是越来越水了！
---
crx 的可以看源码，不过核心技术应该不会放在上面
类似的还有 instpaper 和 pocket ，有相应的 api 开放可供开发者调用
其实这就是从大段的 div 里面找到正文然后识别出来而已，只不过优化做的好不好。

sciooga

2016 年 3 月 31 日

关键词： Readability

V 站内有过很多讨论：
/t/10934
/t/67099
/t/223840
/t/241986

看一下就能了解个大概。

leojoy710

2016 年 3 月 31 日

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.