Tensorflow 2.3.3多卡环境安装教程

1 安装tensorflow-2.3.3

1.1 加载rocm3.9.1

module rm compiler/rocm/2.9
module add compiler/rocm/3.9.1

1.2 执行安装命令

pip3 install /public/software/apps/DeepLearning/whl/rocm-3.9.1/tensorflow-2.3.3-cp36-cp36m-linux_x86_64.whl(确认pip3为python3.6版本)

描述

1.3 注意事项

(1) 如果存在tensorflow安装出问题,在conda环境下使用 conda install python==3.6。

(2) conda环境下安装完成使用第三步中安装tensorflow。

(3) tensorflow2.3.3安装完成后,numpy需要uninstall(两次uninstall,一次是root下的numpy,第二次是conda下的numpy),安装numpy,tensorflow 2.3.3 numpy<1.19.0,>=1.16.0,其中numpy==19.5环境也可以,18.5有问题(已经测试)

2 安装测试

2.1 在计算节点运行程序

vi ~/.bashrc 
export MIOPEN_DEBUG_CONV_IMPLICIT_GEMM=0  # 格式如下

描述

Source .bashrc
Python3 train.py

描述

程序运行情况:

描述

描述

2.1 递交作业脚本

Sbatch submint.sh

需要在shell脚本中添加:

export MIOPEN_DEBUG_CONV_IMPLICIT_GEMM=0

results matching ""

    No results matching ""