请教一个 NLP 的问题

2021-08-02 09:06:24 +08:00
 Braisdom

请问一下大佬,有没有开源的组件可以提取短语的,例如:

牛顿冷却定律在得到 APP 的实践背景介绍「得到锦囊」产品刚上线时,该版块首页的最热排序暴露了两个问题:分页时数据重复和最热榜单被霸屏,本文将围绕解决这两个问题来展开,介绍下如何参考牛顿冷却定律来优化最热内容的排序。“牛顿冷却定律”本质上它描述了高于周围温度的物体会向外散热,并逐渐降温的过程,同时单位时间内散热与周围温差会成正比关系。通过建立”温度”与”时间”之间的函数关系,构建一个”指数式衰减”( Exponential decay )的过程。如果我们把”热文排名”想象成一个”自然冷却”的过程,那么如下的场景是成立的:任一时刻,网站中所有的文章,都有一个”当前温度”,温度最高的文章就排在第一位。随着时间流逝,所有文章的温度都逐渐”冷却”。一、最热榜单暴露的问题 2020 年 1 月初,得到 App 的新产品「得到锦囊」正式上线。产品刚上线时,版块首页的最热排序模块,暴露出了两个问题:分页时数据重复和最热榜单被霸屏,本文将围绕解决这两个问题来展开。排序规则与朴素的实现方案产品需求定义的最热排序规则是:按照问题的总查看量来倒序排列,且有分页和查询条件。服务端对于这种场景,最简单高效的实现方式,就是利用 sql 的 query 语句了,于是我们就直接 [order by {问题的查看量} desc] 来实现了。总查看数 = 获得查看权益的用户数 = 购买数 + 赠一得一领取数这个简单朴素的实现方式,在加上缓存策略,使得我们用较小的成本就满足了产品需求,也应对了较高的流量。

如上述语句,可以提取出:“牛顿冷却定律”,“得到锦囊”,“热榜单霸屏” 等短语,感谢。

3610 次点击
所在节点    自然语言处理
22 条回复
Braisdom
2021-09-01 22:00:27 +08:00
@rpman 我已经找到方法了,但不是特别理想,我并不是想要找到实现,短语的组合也很多,穷举也很累。
qsnow6
255 天前
@Braisdom #21 OP 主的实现方案是什么

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/793072

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX