V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
calon
V2EX  ›  问与答

有没有根据英语或人造语言规律自动生成新词的最佳方案?

  •  
  •   calon · 2018-06-11 22:50:40 +08:00 · 1813 次点击
    这是一个创建于 2117 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今天看到了一篇文章 Generating naming languages,介绍了根据语音组合法,将元音、辅音组成音节,再根据拼写特征,组成词语的思路。 还有具体实现的例子。 不过可能是构造规则比较简单的缘故,构造出来的词语还是不太合理,比如可能构造出像 pulkerkervrelkerkelg、Apipalipipow、Selpulreln 这样的词,正常人是不会这么发音和组词的。

    对这一块了解不深,不知道现在有没有更好的这类单词生成器,如果指定符合英语规律,生成的词看上去能够确实像英语,也可以自定义人造语言的规律。

    7 条回复    2018-06-12 11:37:52 +08:00
    takato
        1
    takato  
       2018-06-11 23:03:53 +08:00
    个人认为可以考虑“炼丹学习”一下。
    当然首先要解决 Sampling 的问题,以什么作为采样数据。
    个人觉得可以以单个音素来进行 onehot 编码。然后尝试导入模型寻找音素之间的 Pattern 联系.

    简单扫描了一下那一段代码,目测作者是人工提取了一些特征,不过在随机拼入的时候可能并没有考虑到上下文音节和音素的影响。
    dallaslu
        2
    dallaslu  
       2018-06-12 00:31:13 +08:00 via iPhone
    听上去好像很适合用来取名字啊。比如宜家的产品命名…
    param
        3
    param  
       2018-06-12 02:31:37 +08:00 via Android
    我今天刚好也想到这个。有更新的话 @我一下谢谢
    WildCat
        4
    WildCat  
       2018-06-12 02:58:11 +08:00
    炼丹学习+1

    LSTM RNN 的一个比较基础的示例就是生成单词。
    calon
        5
    calon  
    OP
       2018-06-12 11:17:53 +08:00 via Android
    @takato 不知道英语有没有现成的单词构成规律,如果有的话可以省掉采样和建模这一步了。
    takato
        6
    takato  
       2018-06-12 11:36:08 +08:00 via iPhone
    @calon 如果有人训练过嵌入层的话,弄一份权值来也是可以的。
    takato
        7
    takato  
       2018-06-12 11:37:52 +08:00 via iPhone
    @WildCat Encoder-Decoder 结构的典型示例+1
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5320 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 09:04 · PVG 17:04 · LAX 02:04 · JFK 05:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.