tensorflow.python.framework.errors_impl.ResourceExhaustedError: OOM when allocating tensor with shap

1.报错原因

  • 主要是因为模型太大导致GPU显存不足或者剩余显存太小所导致的错误

2.解决方法

2.1 修改模型结构

  • 减少Batch 的大小
  • 降低网络维度。
  • 修改输入图片大小等

2.2 解除GPU资源占用

  • 查看进程有没有运行结束
    nvidia-smi
    
  • 查看进程实际运行时间
    • ps -eo pid,lstart,etime | grep PID【进程编号】
    ps -eo pid,lstart,etime | grep 1308
    
  • 杀死进程【需进入管理员账号】
    sudo kill -9 1308
    
  • 再次查看进程
    nvidia-smi
    
  • 杀死成功