Tensorflow 2.3.3多卡环境安装教程
1 安装tensorflow-2.3.3
1.1 加载rocm3.9.1
module rm compiler/rocm/2.9
module add compiler/rocm/3.9.1
1.2 执行安装命令
pip3 install /public/software/apps/DeepLearning/whl/rocm-3.9.1/tensorflow-2.3.3-cp36-cp36m-linux_x86_64.whl(确认pip3为python3.6版本)
1.3 注意事项
(1) 如果存在tensorflow安装出问题,在conda环境下使用 conda install python==3.6。
(2) conda环境下安装完成使用第三步中安装tensorflow。
(3) tensorflow2.3.3安装完成后,numpy需要uninstall(两次uninstall,一次是root下的numpy,第二次是conda下的numpy),安装numpy,tensorflow 2.3.3 numpy<1.19.0,>=1.16.0,其中numpy==19.5环境也可以,18.5有问题(已经测试)
2 安装测试
2.1 在计算节点运行程序
vi ~/.bashrc
export MIOPEN_DEBUG_CONV_IMPLICIT_GEMM=0 # 格式如下
Source .bashrc
Python3 train.py
程序运行情况:
2.1 递交作业脚本
Sbatch submint.sh
需要在shell脚本中添加:
export MIOPEN_DEBUG_CONV_IMPLICIT_GEMM=0