搜狗用户词库解密工具

2018-10-07 21:12:06 +08:00
 h4x3rotab

https://github.com/h4x3rotab/Sogou-User-Dict-Converter

搜狗从某个版本开始导出的用户词库全部被加密,给迁移到其他输入法造成很大障碍。于是我做了这个工具,可以把导出的 bin 文件转换为词频 TSV 文件,然后就随便怎么玩了。

用法:

python3 parse.py <输入 bin 文件> <输出 tsv 文件>

代码发布在 GPLv3 协议之下。

9761 次点击
所在节点    分享创造
22 条回复
motivation
2018-11-07 15:02:40 +08:00
可以告知一下如何使用嘛,我是纯小白,现在已经装好了 python3 和下载好了 GITHUB 上的文件,搜狗的.bin 文件也导出完成了,那么接下来需要做什么呢。

谢谢!
h4x3rotab
2019-02-01 02:37:23 +08:00
@motivation 算法已经被整合到了一个对新手更有好的工具里: https://github.com/studyzy/imewlconverter

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/495403

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX