由于现在神经网络架构发展过于迅速,再加上最近迁移学习的异军突起,对于GPU
设备的要求也愈发高了起来,本来刚开始学习神经网络的时候,我觉得我2060的显卡还挺好使,直到现在半个多小时才能跑一个epoch
(巨心累 😅😅😅),本着靠自己的原则决定找个地方租服务器去跑代码,然后就发现了AutoDL
,各方面对学生党确实都很友好。但毕竟是第一次租服务器,各个方面都要自己摸索,网上还没找到一篇正儿八经的小白入坑级别的教程,终于摸索了大半天之后成功跑通了代码😍,特此留下这段时间的经验。本篇博客主要从实例创建、配置环境、整理数据、代码运行部分详细介绍。
首先浅浅介绍一下AutoDL
。
AutoDL 是一个提供深度学习相关服务的云平台,主要用于提供 GPU 租用、算法复现以及大规模计算任务的处理。用户可以通过这个平台进行深度学习模型的训练,并利用其弹性计算能力来快速部署和测试模型。该平台支持自动化的深度学习工作流程,简化了数据预处理、模型优化等繁琐的任务。
网址:https://www.autodl.com/home
进去之后是网址的主页,首先进行注册证号。
注册之后可以绑定微信,下次直接通过微信登录。后面就是创建我们需要的实例。
进入之后点击左上角租用新实例
进入之后可以按照自己的需求选择** 计费方式、地区、GPU型号、以及不同容量大小的显卡**
我这里简单租用一个按量计费的RTX3090
然后就是创建镜像环境的部分,可以根据自己需要的框架搭建镜像。
如果用的是pytorch
并且不知道具体环境框架的话可以从另一篇博客:|pytorch安装| 根据自己显卡安装pytorch并配置python环境全过程查阅,选完环境直接立即创建即可。第一次创建的话可能会比较慢,创建好之后大概就是这个界面。
目前是开机状态,就是正常按照标的价钱1.58元每小时计算,然后还有一种模式是无卡模式开机
这种模式不管什么类型的显卡都会统一为0.01元每小时,这种模式可以用来配置环境以及上传数据,但是不好的一点就是你在无卡模式的情况下不占用GPU,也就意味着如果这时候别人创建了和你一样的显卡并且开机,那这块显卡就会被别人占用,可能
就面临需要跑代码时候无卡可用的情况,这时候就需要等占用的那个人关机之后才可以使用,所以可以根据自己需求斟酌使用。
到了这一步创建实例已经完成,后面开始配置自己需要的环境。
本次实例创建以搭建pytorch
环境为例,首先我们从快捷工具中进入JupyterLab
。
进入之后进入终端
此时终端还是只能用Linux
指令去输入,他识别不了任何conda
的命令符,但我们需要把它转换为conda
环境,去安装pytorch
以及对应各种包。
后面我们在终端中输入代码:vim ~/.bashrc
输入后运行会出现一大串代码
此时直接输入i
输入后最后会出现一个--INSERT--
此时用鼠标滑轮或者是键盘方向键将光标移到最后一行加一串路径source /root/miniconda3/etc/profile.d/conda.sh
然后就可以保存并退出,按Esc
键并输入:wq
,然后回车。
退出后可以输入bash
重启一下终端
重启后就可以正常使用conda
指令配置环境。配置环境之前建议大家先创建一个自己的虚拟环境,并在虚拟环境中跑代码,创建虚拟环境详细的教程可以在我另一篇博客:|Anaconda安装| Anaconda、pycharm安装及配置虚拟镜像源和Python环境详细教程,所以过程就不过多赘述了,此时已经建成ylpytorch
虚拟环境,从下一步开始。
首先激活已经创建的虚拟环境,激活命令:conda activate ylpytorch
,然后可以把ylpytorch
换成自己创建的环境名,激活后可以看到此时环境已经变为自己创建的虚拟环境。
然后就是找自己适配自己显卡的pytorch
版本安装,由于我租用的服务器是3090,所以直接安装11.3版本的pytorch。具体如何根据自己租用的显卡来查找适配的pytorch版本可以见另一篇博客:|pytorch安装| 根据自己显卡安装pytorch并配置python环境全过程,这里我们直接进入pytorch官网去查找11.3版本的pytorch。官网网址:https://pytorch.org/。进入之后点击GET STARTED
进入之后找适配自己版本的pytorch,主页没有的话可以点击箭头方向查找之前的版本。
由于我们需要安装11.3版本所以进入之后直接Ctrl+F
输入11.3查找。查找之后记得看一下是不是自己的要求,如果都符合复制框中代码即可。
复制之后返回AutoDL
创建的实例终端,并输入复制的命令。记得一定要是在自己环境下输入😢
然后这里输入y
回车然后耐心等待安装完成即可
出现done
之后,就是pytorch安装完成。然后就是其他的库如果自己需要的话,也可以直接下载安装。
数据上传有很多种方式,这里主要介绍感觉最常用且便捷的两种。分别是上传到系统自带盘中以及使用Xshell
上传。
首先我们可以看一下租用的实例存储情况。
主要分为系统盘和数据盘,我们上传数据一般是上传至数据盘,但是数据盘不适合存储小文件,无论是用哪种方式上传,他的文件上限数量为20w,一但系统盘的incode满了不仅会出现上传不了数据的情况甚至上传成功的代码等也无法进行修改,所以上传文件时候遇到大规模数据集例如图片类的尽量先压缩然后使用Linux
代码进行解压缩。
具体的上传方式我们先打开租用实例左侧的文件存储。
然后进行初始化文件存储,但要主义箭头段提示他的文件存储目录仅为autodl-fs
也就是仅为系统盘
初始化后直接点击上传文件即可。
如果出现了像我之前那样系统盘incode
不足的情况可以使用数据盘,数据盘的目录为autodl-tmp
,具体上传方法首先打开创建实例的JupyterLab
,然后进入到数据盘中。
然后点击上方上传文件的图标上传即可。
但是注意这种方式一次只能上传一个文件且不能为文件夹。最后下方上传图标结束即上传完毕
这里需要下载两个软件,下载链接:https://www.xshell.com/zh/free-for-home-school/。
进入后直接下载即可。
下载成功后首先打开租用实例,复制登录指令
假如我的指令为ssh -p 44562 root@region-1.autodl.com
,需要将其改为ssh root@region-1.autodl.com 44562
,也就是将44562
的端口号置后,并且删除-p
。并再次复制后打开xshell,将修改后的端口号粘贴即可(xhsell的快捷键不怎么好使,可以直接鼠标右键点击粘贴)
然后会出现输密码的页面,返回实例地方复制端口号下面的密码粘贴即可
出现下图界面就是创建连接成功。
然后点击xshell中上传文件的图标
然后就可以根据自己的需求将文件上传至实例的任何一个存储位置
数据上传的部分这里就结束了,下面是如何运行代码
如果之前一直是无卡模式开机的话这一步需要先关机然后重新开机(注意这次是正常开机,有卡模式那种),然后打开终端。打开后首先使用代码conda activate ylpytorch
激活之前创建的虚拟环境(这里把ylpytorch换成自己刚才创建的 虚拟环境名称)
进入之后找到自己上传数据的位置,假如说我传到了autodl-tmp
终端输入cd 数据路径
我这里就是cd autodl-tmp
这时候就会发现后续所有指令都是在存数据的文件夹中运行的,最后输入python 需要运行的代码
,我这里就是python train.py
回车以后就会发现代码已经开始运行了。
感觉好久没有在不加代码的情况下写这么多了,全都是自己踩好多雷之后摸索的经验,如果又不好的地方还是很欢迎大家指出,最后祝大家都能得到自己想要的结果。💖