想请教一下各位大牛, 现在楼主开发的项目涉及到使用 HuggingFace 和 Django 来进行多用户推理,但是 Python 代码经常发生内存泄露,同时也很难排查原因.请问各位大牛有没有相关的读物,调试工具来进行问题的溯源?
同时还想问一下比如说在 GPU 推理的时候,加载模型是不是只用加载一次到 GPU 显存,之后每个用户都可以用了,如果同时进行推理呢?如果使用 CPU 推理的话,又是什么情况呢?有没有专门的文档说对应的过程呢?
先谢过大家!