一个词典 App,可以对英文文章进行解析,然后基于个人单词库过滤出生词

2015-06-10 00:50:24 +08:00
 hm279

问题:

在你英语阅读能力不足前,是时常需要查阅单词的,但当你中断阅读后,你又容易忘记之前看的内容了。

解决方案:

解析你所需要阅读的英文文章,基于你的单词词库过滤出文章内的生词,集中显示生词解释。

基础: 个人单词库

难题: 解析文章,Text性质的文档解析容易,其他的格式看OCR。对非 text 数据则通过云端提供的 OCR 服务解析。

核心: 个人词库(分通用与专业)。

终极形态: 得到每个用户的专业性词库数据,提供用户可能感兴趣的单词。

云端同步个人词库

以上是基于一个词典应用,你想得到生词的什么解释就看你拥有怎样的词典,不限于英英,英汉,英日,英韩等等,都是针对英语,英语容易分词。

Android App 可以通过 Intent 的分享接口,接收其他 App 的 text 数据,解析内容过滤出生词。但这里面没统一格式,怎么实现?


下面是我的部分实现 (Android 应用)

Github

基本功能

词典功能。
不包含词典,需自己添加。实现了 stardict 2.4.2 格式的字典, 还没增加音频图像的支持。后续增加字典格式。

文章管理

你可以添加 text,html 格式的文章,解析器会分析出单词,统计各个单词的出现次数,按次数排序存储。提供三种方法归档文章单词,归档即是把单词存放到你的单词库里。
- 全部归档,把全部单词归档。
- 过滤归档,把已存在词库里面的单词归档(只是增加了归档次数),过滤出生词。
- 手动归档,手动选择归档单词。

存储格式 JSON ,Key_Value 形式,单词为 key ,次数为 value 。

个人词库

分两种类型,通用词库和专业词库。专业词库可以添加解释。(未完全完成)
- 词库记录初始归档时间,同时会记录单词的总统计次数。专业词库多一个个人解释项。
- 根据统计次数、归档时间展示个人词库。

TODO

单词变形纠正(如复数),去掉非单词,添加 OCR 云端解析支持,词库云端同步,浏览器插件支持...

其实我是一个 Android 开发者,做云端同步,插件支持怎么搞。

3053 次点击
所在节点    分享创造
8 条回复
em70
2015-06-10 02:20:54 +08:00
为啥不直接做个阅读器,提供海量阅读理解文章,每天抓取大量英文新闻,小说,各种英文内容,然后一边提供更好的阅读体验,一边采集用户数据,然后提供更好的体验

做词典的话,获得个人词库是比较难的,大量精力都花在插件,OCR去了,其实核心不在这里。另外工具属性比较没前途
bjzhush
2015-06-10 09:01:49 +08:00
之前我做过这个东西
URL或者一段文字贴过去,解析出来里面出现频率最高的生词,自己可以标识哪些单词是认识的
主要是学习技术文档的时候贴些内容过去。。
hm279
2015-06-10 09:44:05 +08:00
@em70 个人词库是个人收集维护。是没什么前途,哈
hm279
2015-06-10 09:47:51 +08:00
@bjzhush 初始时我也想这么做,然而现在可以直接阅读了,,
lavande
2015-06-10 11:52:10 +08:00
不太清楚为什么要这样做……识别率怎么样也比不过用户自己啊,我看到一个词瞬间就知道我认不认识,然后要是不认识:在电脑上直接划线取词,在纸质文本上用手机摄像头+ocr取词,立刻就查到了,觉得很流畅啊,为啥要先过滤出生词来?
hm279
2015-06-10 12:09:54 +08:00
@lavande
额,对于单个生词肯定是直接查啦。我最初看英文文档是太多生词不认识,时常需要查,很难顺畅阅读。
我的想法是对整篇文档过滤出生词,统一显示生词解释。。其实我可以顺畅阅读了,我也不知道还有没有用。
lavande
2015-06-10 12:14:54 +08:00
@hm279 原来如此……不过有一定概率是你看完统一生词解释,然后去读文章,然后发现又忘了啥意思,然后又回去查解释……
hm279
2015-06-10 15:39:31 +08:00
@lavande 哈哈,划词解释效率高,这个优势是一次显示全部解释。
基于用户词库做成一个推荐类词典还可以,用户可以记有用(感兴趣)的单词。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/197373

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX