代理配置

服务器端口:

image1

image2

挂载本地代理

下图端口配置

image3

ssh -R 本地代理端口:127.0.0.1:本地代理端口 root@服务器IP -p [服务器端口]

依次输入yes和服务器密码

成功后,在服务器终端:

export http_proxy=http://127.0.0.1:7897
export https_proxy=http://127.0.0.1:7897

检查代理

curl -I https://www.google.com

挂载后台任务

切换到工作目录

例:cd /data/aimet

启动

nohup python run_adaround.py –data_path /data/datasets/imagenet –n_bits_w 4 –n_bits_a 4 –workers 8 –batch_size 128 > adaround_resnet18_w4a4.log 2>&1 &

实时监控

看任务

jobs -l

看显卡有没有真正在干活 (看显存和 GPU-Util)

nvidia-smi

实时刷新 (每秒一次)

watch -n 1 nvidia-smi

看日志最后 50 行,或者实时滚动输出

tail -n 50 adaround_resnet18_w4a4 .log
tail -f adaround_resnet18_w4a4 .log

看进程状态

ps -p PID -o %cpu,%mem,stat,time

看文件夹/解压

cd /data

pwd

ls -R /data/aimet | grep “.py”

find /data/aimet -name “*.py”

unzip tiny-imagenet-200.zip

文件移动

创建归档文件夹

mkdir -p /workspace/data

把跑完的 log 全移过去

mv /data/RAPQ/.log /workspace/data/ 2>/dev/null
mv /data/BRECQ/.log /workspace/data/ 2>/dev/null
mv /data/aimet/*.log /workspace/data/ 2>/dev/null

创建脚本

cat << ‘EOF’ > run_adaround.py

粘贴脚本

cd /data/aimet
nano run_adaround.py

并粘贴脚本,粘贴完后,按 Ctrl + O 保存,按 Enter 确认,然后按 Ctrl + X 退出。

启动conda

强行激活环境 (最稳妥写法)

source /opt/conda/bin/activate aimet_env

或. /opt/conda/bin/activate aimet_env

检查当前环境是否正确挂载 (看星号)

conda env list

下载

在本地电脑 CMD / PowerShell 执行(下载)

scp -P ~~40055~~ root@~~183.222.230.10~~:/workspace/data/*.log C:\Users\19653\Downloads\

从完好的 base 环境把库拷过来

直接覆盖复制

cp -rn /opt/conda/lib/python3.10/site-packages/torch* /opt/conda/envs/aimet_env/lib/python3.10/site-packages/

cp -rn /opt/conda/lib/python3.10/site-packages/torchvision* /opt/conda/envs/aimet_env/lib/python3.10/site-packages/

卡住放出

看谁卡住了

ps -ef | grep python 或 ps -ef | grep conda

强行干掉卡死的任务

kill -9 <PID>

解救被卡死的命令行

Ctrl + C (不行就直接关掉 SSH 窗口重连,或者用 pkill -9 conda 暴力清场)。