首页   注册   登录
 mrfox 最近的时间轴更新

mrfox

V2EX 第 18320 号会员,加入于 2012-03-18 01:15:20 +08:00
mrfox 最近回复了
21 天前
回复了 liuxyon 创建的主题 宽带症候群 今天晚上欧洲方向电信拥堵严重
@ysy960108 请问番回去用的什么方案?
另外,有些带符号的词似乎分词有问题
比如今天看到的这个
https://imgur.com/a/pzj0ZNT
在 EDICT 里是能查到 wasn't 的
今天遇到一个词 rails ,中文释义出来是铁路股票,我反复查了各种词典,没发现有股票的含义
回去看 stardict 里的数据,发现它的释义英文是对的,中文就不对了,晕,浪费了不少时间

由此想到,万一是根据这个背了想再改回来可是难了。。。准确还是第一位的

一点建议:
临时的解决办法:界面上在中文解释下也展示英文释义

长远的办法:
1. 这个 EDICT 收词量大,但释义方面如果有不准确的地方建议不采用了就,可以只抽取它的单词表
目前我没找到免费的非常大的单词表,搜索到一个 https://github.com/dwyl/english-words 只有 47 万还不如它大
真正大的都是语料库里的,但是没免费的,实际上只需要单词列表,其他字段可以不要,但是没有放出这样的
这个单词表只用来抽取文章中的单词
2. 释义方面建议采取 https://github.com/ninja33/mdx-server
这样的话就可以自由选用 mdx 词典,甚至可以多词典同时查,这样出来是准确的,毕竟是词典
如果遇到查不到的词就单独处理,像目前生成词表时也会有个别词查不到就报查不到就是了(多半是有问题的词)

谢谢!
建议增加一个词义缓出的选项,有时觉得认识实际上是因为已经看到词义了~
中秋快乐~
终于刷完了示例文章生成的 6K 词,明天试试对新文章的处理
https://imgur.com/a/29BAiBc
有时释义里会遇到乱码,不知何故
这些问号会不会影响分词也不知道
https://imgur.com/a/p7EmpHs
这个例子更明显些,释义字小而例句显示完了下面还有空间
可以考虑释义占正常字体大小两行的地方,超出的话加一个展开符号(如叠放向下的两个折线箭头)
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1977 人在线   最高记录 3821   ·  
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.1 · 10ms · UTC 05:27 · PVG 13:27 · LAX 21:27 · JFK 00:27
♥ Do have faith in what you're doing.
沪ICP备16043287号-1