使用 NLP 从书中提取各个角色的台词

2021-05-04 00:00:20 +08:00
 Yut

身边有个富二代开了家有声读物的工作室,想用软件来替代人工分句,不知道大哥们有没有好想法。(或者愿意写一个就更好了,有偿,准确度高的话个把万没问题

2866 次点击
所在节点    自然语言处理
13 条回复
xiangyuecn
2021-05-04 00:04:46 +08:00
既然是富二代,那么给个 100 万报价,应该小意思吧😏 个把玩就不要写富二代这 3 个字了,应景
Yut
2021-05-04 00:06:19 +08:00
@xiangyuecn 那只能说还不够富吧。。。
xiangyuecn
2021-05-04 00:07:48 +08:00
@Yut 皮😂
Yut
2021-05-04 00:10:04 +08:00
@xiangyuecn 嗨,人家找我我要整论文没空,放到 v2 上看看有没有老哥愿意接吧没有就算了
MakeItGreat
2021-05-04 00:10:24 +08:00
经典情况:我很有钱唉,我很牛逼
但是我给你钱的时候我就是扣扣嗖嗖
Yut
2021-05-04 00:11:28 +08:00
@MakeItGreat 人还是挺 generous 的,而且都找着周围朋友话放出来了到时候给少了怕不是抬不起头
lithiumii
2021-05-04 00:14:47 +08:00
标点符号规范的书是不是正则就够了?
Yut
2021-05-04 00:19:00 +08:00
@lithiumii 先期确实有这个想法,不过最终肯定还是上 NLP 的嘛
Yut
2021-05-04 00:20:17 +08:00
假如想接的话可以贴个相关的 repo 谢谢老哥们了
privapps
2021-05-04 09:34:27 +08:00
我看了看,说难不难,说容易不容易

如果是标准书,用引号啥的,可以把对话提出来,这个容易

不容易的是怎么把人物对应上,简单方法是找对话前后面句子 , 用结巴 或者 https://github.com/baidu/lac,把名词提出来,然后对应。

但问题是有的对话是没有人物的,这就需要 自己写一些 规则,比如 两人对话,一定是一人一句等等,然后用 machine learning, tenserflow 去学习,然后提高准确度。简单来说就是用 ML 做 classification, 这个就有点玄学的味道了

我估计做出来容易,能够有 60%或以上的准确率,但提高准确率蛮难的
rpman
2021-07-30 11:25:20 +08:00
我司做 TTS 的,也有面对有声读物的相关业务
我们有说话人判别和指代消解相关技术,要不要考虑对接一下,钱到位了都好说
Yut
2021-08-01 10:23:40 +08:00
@rpman 老哥来晚了呀,他们已经做的差不多开始用了,以后加入他们想 scale 的话我再来找你
TransAM
326 天前
一般来说一个人的台词占一整段,为啥还要分句?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/774795

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX