Bảng tương thích driver của Tensorflow với CUDA/GCC

Trong machine learning, thi thoảng các anh em gặp phải rắc rối khi cần train hoặc tinh chỉnh các model cũ, nhất là các model mà được viết ở Tensorflow v1 (TFv1). Vì thường là khá khó để cho TFv1 chạy được trong môi trường cập nhật nhất. Bài vết này sẽ đi vào các vấn đề liên quan và giải pháp.

Luồng thông thường khi cần giải quyết vấn đề tương thích driver của TF là:

  • TensorFlow → Python
  • TensorFlow → Cudnn/Cuda → NVIDIA driver/GCC

Nếu anh em nào vào đây chỉ để cài đặt TFv1

Anh em cài đặt chính xác các phiên bản sau thì có thể sử dụng ngay được TFv1.

  • tensorflow==1.15 ( phiên bản v1 cuối cùng).
  • tensorflow-gpu==1.15.
  • Python 3.7 (phiên bản cuối cùng tương thích với TF 1.15).
  • CUDA 10.0 (yêu cầu bởi TF 1.15). Chú ý: vis dụ như bản CUDA 10.2 sẽ không hoạt động nên anh em khá nên cài chính xác phiên bản tôi đề xuất.
  • NVIDIA driver 410.48 (kèm với CUDA 10.0 Toolkit) hoặc NVIDIA 470 (tôi cài thử qua apt và xác nhận có hoạt động).
  • Cudnn 7.4 (yêu cầu bởi TF 1.15).
  • tensorflow-probability==0.7 (yêu cầu project riêng, ghi luôn nếu anh em cần).
  • tensorflow-datasets==3.2.1 (yêu cầu từ project, ghi luôn nếu anh em cần).

Bảng tương thích của Tensorflow

Nhìn chung TF khá là gắt về yêu cầu cài đặt. Anh em kiểm tra theo thông tin dưới đây.

Trang chính thức từ nhà cái TF.

Linux

CPU (Linux)

VersionPython versionCompilerBuild tools
tensorflow-2.9.03.7-3.10GCC 9.3.1Bazel 5.0.0
tensorflow-2.8.03.7-3.10GCC 7.3.1Bazel 4.2.1
tensorflow-2.7.03.7-3.9GCC 7.3.1Bazel 3.7.2
tensorflow-2.6.03.6-3.9GCC 7.3.1Bazel 3.7.2
tensorflow-2.5.03.6-3.9GCC 7.3.1Bazel 3.7.2
tensorflow-2.4.03.6-3.8GCC 7.3.1Bazel 3.1.0
tensorflow-2.3.03.5-3.8GCC 7.3.1Bazel 3.1.0
tensorflow-2.2.03.5-3.8GCC 7.3.1Bazel 2.0.0
tensorflow-2.1.02.7, 3.5-3.7GCC 7.3.1Bazel 0.27.1
tensorflow-2.0.02.7, 3.3-3.7GCC 7.3.1Bazel 0.26.1
tensorflow-1.15.02.7, 3.3-3.7GCC 7.3.1Bazel 0.26.1
tensorflow-1.14.02.7, 3.3-3.7GCC 4.8Bazel 0.24.1
tensorflow-1.13.12.7, 3.3-3.7GCC 4.8Bazel 0.19.2
tensorflow-1.12.02.7, 3.3-3.6GCC 4.8Bazel 0.15.0
tensorflow-1.11.02.7, 3.3-3.6GCC 4.8Bazel 0.15.0
tensorflow-1.10.02.7, 3.3-3.6GCC 4.8Bazel 0.15.0
tensorflow-1.9.02.7, 3.3-3.6GCC 4.8Bazel 0.11.0
tensorflow-1.8.02.7, 3.3-3.6GCC 4.8Bazel 0.10.0
tensorflow-1.7.02.7, 3.3-3.6GCC 4.8Bazel 0.10.0
tensorflow-1.6.02.7, 3.3-3.6GCC 4.8Bazel 0.9.0
tensorflow-1.5.02.7, 3.3-3.6GCC 4.8Bazel 0.8.0
tensorflow-1.4.02.7, 3.3-3.6GCC 4.8Bazel 0.5.4
tensorflow-1.3.02.7, 3.3-3.6GCC 4.8Bazel 0.4.5
tensorflow-1.2.02.7, 3.3-3.6GCC 4.8Bazel 0.4.5
tensorflow-1.1.02.7, 3.3-3.6GCC 4.8Bazel 0.4.2
tensorflow-1.0.02.7, 3.3-3.6GCC 4.8Bazel 0.4.2

GPU (Linux)

VersionPython versionCompilerBuild toolscuDNNCUDA
tensorflow-2.9.03.7-3.10GCC 9.3.1Bazel 5.0.08.111.2
tensorflow-2.8.03.7-3.10GCC 7.3.1Bazel 4.2.18.111.2
tensorflow-2.7.03.7-3.9GCC 7.3.1Bazel 3.7.28.111.2
tensorflow-2.6.03.6-3.9GCC 7.3.1Bazel 3.7.28.111.2
tensorflow-2.5.03.6-3.9GCC 7.3.1Bazel 3.7.28.111.2
tensorflow-2.4.03.6-3.8GCC 7.3.1Bazel 3.1.08.011.0
tensorflow-2.3.03.5-3.8GCC 7.3.1Bazel 3.1.07.610.1
tensorflow-2.2.03.5-3.8GCC 7.3.1Bazel 2.0.07.610.1
tensorflow-2.1.02.7, 3.5-3.7GCC 7.3.1Bazel 0.27.17.610.1
tensorflow-2.0.02.7, 3.3-3.7GCC 7.3.1Bazel 0.26.17.410.0
tensorflow_gpu-1.15.02.7, 3.3-3.7GCC 7.3.1Bazel 0.26.17.410.0
tensorflow_gpu-1.14.02.7, 3.3-3.7GCC 4.8Bazel 0.24.17.410.0
tensorflow_gpu-1.13.12.7, 3.3-3.7GCC 4.8Bazel 0.19.27.410.0
tensorflow_gpu-1.12.02.7, 3.3-3.6GCC 4.8Bazel 0.15.079
tensorflow_gpu-1.11.02.7, 3.3-3.6GCC 4.8Bazel 0.15.079
tensorflow_gpu-1.10.02.7, 3.3-3.6GCC 4.8Bazel 0.15.079
tensorflow_gpu-1.9.02.7, 3.3-3.6GCC 4.8Bazel 0.11.079
tensorflow_gpu-1.8.02.7, 3.3-3.6GCC 4.8Bazel 0.10.079
tensorflow_gpu-1.7.02.7, 3.3-3.6GCC 4.8Bazel 0.9.079
tensorflow_gpu-1.6.02.7, 3.3-3.6GCC 4.8Bazel 0.9.079
tensorflow_gpu-1.5.02.7, 3.3-3.6GCC 4.8Bazel 0.8.079
tensorflow_gpu-1.4.02.7, 3.3-3.6GCC 4.8Bazel 0.5.468
tensorflow_gpu-1.3.02.7, 3.3-3.6GCC 4.8Bazel 0.4.568
tensorflow_gpu-1.2.02.7, 3.3-3.6GCC 4.8Bazel 0.4.55.18
tensorflow_gpu-1.1.02.7, 3.3-3.6GCC 4.8Bazel 0.4.25.18
tensorflow_gpu-1.0.02.7, 3.3-3.6GCC 4.8Bazel 0.4.25.18

Chú ý là TF khá gắt về các phiên bản của CUDA. VD với TF 1.5, anh em cài CUDA 10.2 thì không chạy, mà cài đúng CUDA 10.0 thì mới chạy.

Các anh em có thể thử CUDA 10.2 với TF1.5, nó sẽ ra cái lỗi này:

2022-06-21 21:10:57.123081: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1618] Found device 0 with properties: 
name: NVIDIA GeForce RTX 3090 major: 8 minor: 6 memoryClockRate(GHz): 1.695
pciBusID: 0000:b3:00.0
2022-06-21 21:10:57.123186: W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'libcudart.so.10.0'; dlerror: libcudart.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/lib64
2022-06-21 21:10:57.123237: W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'libcublas.so.10.0'; dlerror: libcublas.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/lib64
2022-06-21 21:10:57.123279: W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'libcufft.so.10.0'; dlerror: libcufft.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/lib64
2022-06-21 21:10:57.123320: W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'libcurand.so.10.0'; dlerror: libcurand.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/lib64
2022-06-21 21:10:57.123362: W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'libcusolver.so.10.0'; dlerror: libcusolver.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/lib64
2022-06-21 21:10:57.123402: W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'libcusparse.so.10.0'; dlerror: libcusparse.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/lib64
2022-06-21 21:10:57.123443: W tensorflow/stream_executor/platform/default/dso_loader.cc:55] Could not load dynamic library 'libcudnn.so.7'; dlerror: libcudnn.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/lib64
2022-06-21 21:10:57.123452: W tensorflow/core/common_runtime/gpu/gpu_device.cc:1641] Cannot dlopen some GPU libraries. Please make sure the missing libraries mentioned above are installed properly if you would like to use GPU. Follow the guide at https://www.tensorflow.org/install/gpu for how to download and setup the required libraries for your platform.
Skipping registering GPU devices...

macOS

CPU (macOS)

VersionPython versionCompilerBuild tools
tensorflow-2.9.03.7-3.10Clang from xcode 10.14Bazel 5.0.0
tensorflow-2.8.03.7-3.10Clang from xcode 10.14Bazel 4.2.1
tensorflow-2.7.03.7-3.9Clang from xcode 10.11Bazel 3.7.2
tensorflow-2.6.03.6-3.9Clang from xcode 10.11Bazel 3.7.2
tensorflow-2.5.03.6-3.9Clang from xcode 10.11Bazel 3.7.2
tensorflow-2.4.03.6-3.8Clang from xcode 10.3Bazel 3.1.0
tensorflow-2.3.03.5-3.8Clang from xcode 10.1Bazel 3.1.0
tensorflow-2.2.03.5-3.8Clang from xcode 10.1Bazel 2.0.0
tensorflow-2.1.02.7, 3.5-3.7Clang from xcode 10.1Bazel 0.27.1
tensorflow-2.0.02.7, 3.5-3.7Clang from xcode 10.1Bazel 0.27.1
tensorflow-2.0.02.7, 3.3-3.7Clang from xcode 10.1Bazel 0.26.1
tensorflow-1.15.02.7, 3.3-3.7Clang from xcode 10.1Bazel 0.26.1
tensorflow-1.14.02.7, 3.3-3.7Clang from xcodeBazel 0.24.1
tensorflow-1.13.12.7, 3.3-3.7Clang from xcodeBazel 0.19.2
tensorflow-1.12.02.7, 3.3-3.6Clang from xcodeBazel 0.15.0
tensorflow-1.11.02.7, 3.3-3.6Clang from xcodeBazel 0.15.0
tensorflow-1.10.02.7, 3.3-3.6Clang from xcodeBazel 0.15.0
tensorflow-1.9.02.7, 3.3-3.6Clang from xcodeBazel 0.11.0
tensorflow-1.8.02.7, 3.3-3.6Clang from xcodeBazel 0.10.1
tensorflow-1.7.02.7, 3.3-3.6Clang from xcodeBazel 0.10.1
tensorflow-1.6.02.7, 3.3-3.6Clang from xcodeBazel 0.8.1
tensorflow-1.5.02.7, 3.3-3.6Clang from xcodeBazel 0.8.1
tensorflow-1.4.02.7, 3.3-3.6Clang from xcodeBazel 0.5.4
tensorflow-1.3.02.7, 3.3-3.6Clang from xcodeBazel 0.4.5
tensorflow-1.2.02.7, 3.3-3.6Clang from xcodeBazel 0.4.5
tensorflow-1.1.02.7, 3.3-3.6Clang from xcodeBazel 0.4.2
tensorflow-1.0.02.7, 3.3-3.6Clang from xcodeBazel 0.4.2

GPU (macOS)

VersionPython versionCompilerBuild toolscuDNNCUDA
tensorflow_gpu-1.1.02.7, 3.3-3.6Clang from xcodeBazel 0.4.25.18
tensorflow_gpu-1.0.02.7, 3.3-3.6Clang from xcodeBazel 0.4.25.18

Tương thích từ CUDA sang NVIDIA Driver

Bảng tương thích chính thức từ nhà cái NVIDIA.

Điều kiện tương thích này thì mềm hơn, ko gắt như bên TF. Dạng yêu cầu thường sẽ là CUDA ver x cần NVIDIA driver thấp nhất là ver y. Nhưng kể cả thế, thì nếu mốn ăn chắc anh em cứ cài phiên bản gần nhất so với yêu cầu, mà còn có thể down về được, để tránh rủi ro phải cài lại.

Thường trong CUDA Toolkit có kèm theo NVIDIA driver, anh em dùng luôn phiên bản đó cũng giảm được cơ số các rủi ro.

Table 3. CUDA Toolkit and Corresponding Driver Versions
CUDA Toolkit Toolkit Driver Version
Linux x86_64 Driver Version Windows x86_64 Driver Version
CUDA 11.7 GA >=515.43.04 >=516.01
CUDA 11.6 Update 2 >=510.47.03 >=511.65
CUDA 11.6 Update 1 >=510.47.03 >=511.65
CUDA 11.6 GA >=510.39.01 >=511.23
CUDA 11.5 Update 2 >=495.29.05 >=496.13
CUDA 11.5 Update 1 >=495.29.05 >=496.13
CUDA 11.5 GA >=495.29.05 >=496.04
CUDA 11.4 Update 4 >=470.82.01 >=472.50
CUDA 11.4 Update 3 >=470.82.01 >=472.50
CUDA 11.4 Update 2 >=470.57.02 >=471.41
CUDA 11.4 Update 1 >=470.57.02 >=471.41
CUDA 11.4.0 GA >=470.42.01 >=471.11
CUDA 11.3.1 Update 1 >=465.19.01 >=465.89
CUDA 11.3.0 GA >=465.19.01 >=465.89
CUDA 11.2.2 Update 2 >=460.32.03 >=461.33
CUDA 11.2.1 Update 1 >=460.32.03 >=461.09
CUDA 11.2.0 GA >=460.27.03 >=460.82
CUDA 11.1.1 Update 1 >=455.32 >=456.81
CUDA 11.1 GA >=455.23 >=456.38
CUDA 11.0.3 Update 1 >= 450.51.06 >= 451.82
CUDA 11.0.2 GA >= 450.51.05 >= 451.48
CUDA 11.0.1 RC >= 450.36.06 >= 451.22
CUDA 10.2.89 >= 440.33 >= 441.22
CUDA 10.1 (10.1.105 general release, and updates) >= 418.39 >= 418.96
CUDA 10.0.130 >= 410.48 >= 411.31
CUDA 9.2 (9.2.148 Update 1) >= 396.37 >= 398.26
CUDA 9.2 (9.2.88) >= 396.26 >= 397.44
CUDA 9.1 (9.1.85) >= 390.46 >= 391.29
CUDA 9.0 (9.0.76) >= 384.81 >= 385.54
CUDA 8.0 (8.0.61 GA2) >= 375.26 >= 376.51
CUDA 8.0 (8.0.44) >= 367.48 >= 369.30
CUDA 7.5 (7.5.16) >= 352.31 >= 353.66
CUDA 7.0 (7.0.28) >= 346.46 >= 347.62

Link download CUDA Toolkit, có bao gồm các phiên bản cũ, cung cấp chính thức từ nhà cái NVIDIA.

Tương thích Cudnn/CUDA

Điều kiện tương thích này là đều kiện lỏng nhất. NVIDIA có các bản build của cudnn riêng cho từng phiên bản CUDA. Danh sách để download các bản build từ nhà cái (yêu câu đăng ký).

Bên TF họ không ghi yêu cầu về phiên bản cudnn nên các anh em có thể thử bản mới nhất mà tương thích với các phần còn lại (nvidia driver, cuda, ...)

Đến đây thôi, bài này dài quá, anh em nào đọc tiếp thì theo dõi tiếp ở bài bằng tiếng Anh: https://transang.me/cuda-cudnn-driver-gcc-tensorflow-python-version-compatibility-charts/

Nội dung các phần sau gồm:

  • Tương thích nvidia driver -> GCC
  • Tương thích CUDA -> GCC
  • Các cách để quản lý nhiều phiên bản GCC trên cùng OS.
  • Các tương thích khác như Tensorflow Probability, Tensorflow datasets, ...