您现在的位置是：亿华云 > 域名

Docker Compose + GPU + TensorFlow 所产生的奇妙火花

亿华云2025-10-02 19:00:33【域名】8人已围观

简介Docker 很棒——越来越多的人在开发与分布中使用它。Docker 有很多优势：即时环境设置、独立于平台的 app、现成的解决方案、更好的版本控制、简化的维护。但是在数据科学和深度学习方面，使用 D

Docker 很棒——越来越多的所产生人在开发与分布中使用它。Docker 有很多优势：即时环境设置、奇妙独立于平台的火花 app、现成的所产生解决方案、更好的奇妙版本控制、简化的火花维护。

但是所产生在数据科学和深度学习方面，使用 Docker 有一些阻碍。奇妙你必须记住所有的火花 Docker 标志，以在主机和容器之间共享端口和文件，所产生创建不必要的奇妙 run.sh 脚本，并处理 CUDA 版本和 GPU 共享。火花如果你曾经见过下面这个错误，所产生你就会明白这种痛苦：

$ nvidia-smi Failedto initialize NVML:Driver/library version mismatch

我们的奇妙目标

本文的目的在于为你介绍一系列 Docker 实用工具，以及我们经常在公司使用的火花 GPU-ready 样板文件。

因此，以下结果将不会出现：

docker run --rm --device /dev/nvidia0:/dev/nvidia0 --device /dev/nvidiactl:/dev/nvidiactl --device /dev/nvidia-uvm:/dev/nvidia-uvm -p 8888:8888 -v `pwd`:/home/user gcr.io/tensorflow/tensorflow:latest-gpu

取而代之的是这种结果：

doc up

酷!

我们实际上想要达到的：

通过一个指令管理我们的应用程序状态(运行、停止、源码库移除) 把所有的运行标志保存到我们能够提交到 git repo 的单个配置文件忘记 GPU 驱动程序版本不匹配和共享在生产工具比如 Kubernetes 或 Rancher 中使用 GPU-ready 的容器

因此，这里是我们强烈推荐给每个深度学习者的工具清单：

1. CUDA

首先，你需要 CUDA 工具包，如果你打算自己动手训练模型，那这是必须要有的。我们推荐使用 runfile 安装程序类型而不是 deb，因为它不会在以后的更新中混淆依赖关系。

(可选)如何检查它是否工作：

cd /usr/local/cuda/samples/1_Utilities/deviceQuery make ./deviceQuery #Shouldprint "Result = PASS"

2. Docker

你不想让海量的库污染你的计算机，也害怕版本出现问题。同样，你不必亲自构建和安装——通常，软件已为你创建好了，并包装在图像中。安装 Docker 很简单：

curl -sSL https://get.docker.com/ | sh

3. Nvidia Docker

如果使用 Docker，必须有来自英伟达的实用程序(https://github.com/NVIDIA/nvidia-docker)，它真正简化了在 Docker 容器内使用 GPU 的步骤。

安装非常简单：

wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker_1.0.1-1_amd64.deb sudo dpkg -i /tmp/nvidia-docker*.deb

现在，不用每次都用下列方式来共享英伟达设备：

docker run --rm --device /dev/nvidia0:/dev/nvidia0 --device /dev/nvidiactl:/dev/nvidiactl --device /dev/nvidia-uvm:/dev/nvidia-uvm nvidia/cuda nvidia-smi

你可以使用 nvidia-docker 命令：

nvidia-docker run --rm nvidia/cuda nvidia-smi

同样，你也无需担心驱动程序版本不匹配：英伟达的云服务器 docker 插件将会帮你解决问题。

4. Docker Compose

超级有用的实用程序，允许你在文件中存储 docker run 配置，并更轻松地管理应用程序状态。尽管它的设计目的是组合多个 docker 容器，但 docker compose 在你只有一个服务的时候依然非常有用。这里有一个稳定版本

(https://github.com/docker/compose/releases)：

curl -L https://github.com/docker/compose/releases/download/1.15.0/docker-compose-`uname -s`-`uname -m` > /usr/local/bin/docker-compose chmod +x /usr/local/bin/docker-compose

5. Nvidia Docker Compose

不幸的是，Docker Compose 并不知道 Nvidia Docker 的存在。幸运的是，有一个解决方法：有一个小的 Python 脚本，可以用 nvidia-docker 驱动程序生成配置。通过 pip 安装 Nvidia Docker Compose：

pip install nvidia-docker-compose

现在你可以使用 nvidia-docker-compose 命令，而不是 docker-compose 了。

替代选择

如果你不想使用 nvidia-docker-compose，你可以手动传递音量驱动程序，只需把这些选项添加到 docker-compose.yml：

#Yournvidia driver version here volumes: nvidia_driver_375.26: external:true ... volumes: -nvidia_driver_375.26:/usr/local/nvidia:ro

6. Bash 别名

但是 nvidia-docker-compose 需要输入 21 个字符，这太多了。