超大运算量的实现方案

2021-02-20 11:31:12 +08:00
 123go

公司在做一批数据处理。 大致任务就是将 450 万的领域名词逐个去与 30 万的产品进行对比,得出与每个名词最相关的那一个产品。 “最相关产品”的计算过程是一个 python 写的 nlp 算法。目前使用公司内部的 Dell T430 Linux 服务器进行测试,每个名词的处理大概需要 30 秒。也就是说只用这一个服务器的话,处理完所有数据,大概需要一个半月的时间。老板希望总处理时间缩短到一个星期之内。 请问类似这种场景,有什么最佳实现吗?

1258 次点击
所在节点    算法
4 条回复
faceair
2021-02-20 11:45:11 +08:00
临时租六台云主机,拆分子任务
czfy
2021-02-20 11:50:34 +08:00
本质上就是要投入资源:
1. 投入人力资源,优化算法,成本是优化算法需要的时间对应的人力成本,当然有可能最后也优化不出来想要的效果,受硬件约束
2. 投入硬件资源,买服务器,成本是服务器使用费
lekai63
2021-02-20 11:53:13 +08:00
既然是跑算法。 那看看各家云函数?好像 python 都是支持的。
云函数易扩展,搞大并发咯
linkedsh1005
2021-02-20 17:25:41 +08:00
hadoop

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/754527

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX