V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
clockwise9
V2EX  ›  奇思妙想

解析短文本的需求和现有工具

  •  
  •   clockwise9 · 2020-09-20 06:51:44 +08:00 · 2115 次点击
    这是一个创建于 1285 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近对 NLP parsing 问题很感兴趣,想做一套短文本解析的工具,输入一个短文本(往往是一个单元格内容),输出一个像对更加结构化的表示,比如豆瓣里电影《信条》的上映时间是 “2020-09-04(中国大陆) / 2020-08-26(英国) / 2020-09-03(美国)”,可以首先拆分成三个并列的元素,每个元素都是一个日期加上一个限定词,比如第三个元素是日期 “2020-09-03” 加上一个限定词“美国”。

    为了避免无脑做出来再拿着锤子找钉子,想先调查一下,各位在工作或者个人项目中是否会有类似的需求,比上述例子简单或者复杂都可以。如果已经有相关解决方案的话,大致是如何实现的(比如手写代码规则,或者基于一些已有工具定制,或者直接外包)。
    12 条回复    2020-09-23 04:15:53 +08:00
    noqwerty
        1
    noqwerty  
       2020-09-20 07:55:32 +08:00 via Android
    看上去像是 named entity recognition 的范畴?
    TimePPT
        2
    TimePPT  
       2020-09-20 08:59:57 +08:00 via Android
    你这不就是知识图谱三元组抽取么……
    clockwise9
        3
    clockwise9  
    OP
       2020-09-20 09:17:52 +08:00 via Android
    @noqwerty 可能有若干个命名实体,还有日期和数字等。更重要的是分析结构而不只是定位实体。
    clockwise9
        4
    clockwise9  
    OP
       2020-09-20 09:20:42 +08:00 via Android
    @TimePPT 是的,最初想到这个问题就是因为抽取三元组的需求,所以还想了解一下有没有别的使用场景。
    TimePPT
        5
    TimePPT  
       2020-09-20 09:43:42 +08:00 via Android
    @clockwise9 了解,那基本上数据结构化的需求都能顺带做了
    clockwise9
        6
    clockwise9  
    OP
       2020-09-20 16:12:38 +08:00 via Android
    @TimePPT 有哪些数据结构化的使用场景呢?求指教一二。
    TimePPT
        7
    TimePPT  
       2020-09-20 16:19:43 +08:00 via Android
    @clockwise9 很多吧,文本摘要抽取,非结构化数据的结构化都需要类似 NLP 能力。建议多看看文章综述之类的,不用着急做锤子。
    tanszhe
        8
    tanszhe  
       2020-09-20 19:49:31 +08:00
    文本解析已经比较成熟了也比较简单,你可以往图像识别方向看看,基本还是原始社会
    relic
        9
    relic  
       2020-09-21 11:30:34 +08:00 via iPhone
    @tanszhe 要是很成熟就不会有那么多的人工智障了。
    clockwise9
        10
    clockwise9  
    OP
       2020-09-23 04:06:00 +08:00 via Android
    @tanszhe 感谢建议,可惜我只做过文本,没做过图像。。。
    clockwise9
        11
    clockwise9  
    OP
       2020-09-23 04:09:15 +08:00 via Android
    @TimePPT 最近看过一些关于 dependency parsing 和 constituency parsing 的文章,感觉挺受启发。综述的话,可以求个关键词么?我去学习一下 :)
    clockwise9
        12
    clockwise9  
    OP
       2020-09-23 04:15:53 +08:00 via Android
    @relic 哈哈是啊,我觉得 NLP 领域的工业级工具链还有发展空间,毕竟总不能等着学界大佬来放低身段拯救我们
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2557 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 74ms · UTC 15:57 · PVG 23:57 · LAX 08:57 · JFK 11:57
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.