个人觉得 nlp 的首要难点, 在于准确地描述词汇的含义。
像 word2vec 这样的词向量, 无非是根据词的自然距离,算出某些维度下词的关联程度。
这种关联是模糊且不稳定的。
自然语言的背景知识比较稀疏,靠统计学方法, 很难做到面面俱到。
例如一个训练内涵段子的模型, 很多情况下笑话的背景知识并不在段子文本中, 而是人们日常生活中获得的知识。这样的知识应该很难通过统计模型去学习的吧。
如果有一个较为准确的先验知识图谱, 像词典一样把词汇及各式知识关联起来。对当前的自然语言理解, 是否一个较大的提高呢。