公司在做一批数据处理。 大致任务就是将 450 万的领域名词逐个去与 30 万的产品进行对比,得出与每个名词最相关的那一个产品。 “最相关产品”的计算过程是一个 python 写的 nlp 算法。目前使用公司内部的 Dell T430 Linux 服务器进行测试,每个名词的处理大概需要 30 秒。也就是说只用这一个服务器的话,处理完所有数据,大概需要一个半月的时间。老板希望总处理时间缩短到一个星期之内。 请问类似这种场景,有什么最佳实现吗?
1
faceair 2021-02-20 11:45:11 +08:00 via Android
临时租六台云主机,拆分子任务
|
2
czfy 2021-02-20 11:50:34 +08:00
本质上就是要投入资源:
1. 投入人力资源,优化算法,成本是优化算法需要的时间对应的人力成本,当然有可能最后也优化不出来想要的效果,受硬件约束 2. 投入硬件资源,买服务器,成本是服务器使用费 |
3
lekai63 2021-02-20 11:53:13 +08:00
既然是跑算法。 那看看各家云函数?好像 python 都是支持的。
云函数易扩展,搞大并发咯 |
4
linkedsh1005 2021-02-20 17:25:41 +08:00
hadoop
|