🚀 LLM 部署技能

在 GPU 服务器上快速部署 vLLM 模型服务。

✨ 功能特点

🖥️ 多服务器支持 - 配置多个 GPU 服务器，灵活选择
🔍 自动检查 - 一键检查 GPU 状态和端口占用
🤖 模型库 - 预置流行模型配置
⚡ 快速部署 - 简单命令即可启动服务

📋 快速开始

1. 配置服务器

创建 ~/.config/llm-deploy/servers.json：

{
  "servers": {
    "gpu1": {
      "host": "gpu1",
      "user": "lnsoft",
      "gpu_count": 4,
      "model_path": "/data/models/llm"
    },
    "my-gpu": {
      "host": "192.168.1.100",
      "user": "ubuntu",
      "gpu_count": 2,
      "model_path": "/home/ubuntu/models"
    }
  },
  "default_server": "gpu1"
}

2. 检查服务器状态

# 使用默认服务器
llm-deploy check

# 指定服务器
llm-deploy check --server gpu1

3. 部署模型

# 部署预设模型
llm-deploy deploy deepseek-r1-32b

# 指定端口
llm-deploy deploy deepseek-r1-32b --port 8112

🎛️ 可用命令

`check` - 检查服务器状态

检查 GPU 显存和端口占用情况。

llm-deploy check [--server NAME] [--port PORT]

输出示例：

✅ GPU 状态正常
- 4 × Tesla T4 (15GB)
- 显存占用: 12.6GB/卡
- 温度: 51-55°C

✅ 端口 8111 可用

`deploy` - 部署模型

启动 vLLM 模型服务。

llm-deploy deploy <MODEL_NAME> [--server NAME] [--port PORT]

支持的模型：

deepseek-r1-32b - DeepSeek-R1-Distill-Qwen-32B-AWQ
llama-3-8b - Llama 3 8B
qwen-7b - Qwen 7B
mistral-7b - Mistral 7B

`list` - 列出可用模型

llm-deploy list

`ps` - 查看运行中的服务

llm-deploy ps [--server NAME]

`stop` - 停止服务

llm-deploy stop [--server NAME] [--port PORT]

🔧 手动使用（无脚本）

如果不想用封装脚本，也可以直接用原始命令：

检查 GPU

ssh <user>@<host> nvidia-smi

检查端口

ssh <user>@<host> "lsof -i :<port> 2>/dev/null || echo '端口可用'"

部署模型（DeepSeek R1 32B）

ssh <user>@<host> "tmux new-session -d -s vllm '
source /data/miniconda3/etc/profile.d/conda.sh && \
conda activate vllm && \
cd /data/models/llm && \
vllm serve /data/models/llm/deepseek/DeepSeek-R1-Distill-Qwen-32B-AWQ/ \
  --tensor-parallel-size 4 \
  --max-model-len 102400 \
  --dtype half \
  --port 8111 \
  --served-model-name gpt-4o-mini
'"

📦 添加自定义模型

在 ~/.config/llm-deploy/models.json 中添加：

{
  "my-model": {
    "name": "My Awesome Model",
    "path": "/path/to/model",
    "tensor_parallel_size": 2,
    "max_model_len": 8192,
    "dtype": "half",
    "port": 8111,
    "served_model_name": "my-model"
  }
}

⚠️ 注意事项

部署前检查 - 总是先运行 check 确认资源可用
后台运行 - 建议使用 tmux/screen 保持服务运行
端口管理 - 不同模型使用不同端口
显存估算 - 7B 模型约需 8-10GB，32B 约需 10-14GB/卡

🔗 相关链接

vLLM 文档: https://docs.vllm.ai
模型下载: https://huggingface.co/models
问题反馈: https://github.com/your-username/llm-deploy-skill

由 OpenClaw 社区贡献 🦞

llm-deploy

Safety Notice

Copy this and send it to your AI assistant to learn

🚀 LLM 部署技能

✨ 功能特点

📋 快速开始

1. 配置服务器

2. 检查服务器状态

3. 部署模型

🎛️ 可用命令

`check` - 检查服务器状态

`deploy` - 部署模型

`list` - 列出可用模型

`ps` - 查看运行中的服务

`stop` - 停止服务

🔧 手动使用（无脚本）

检查 GPU

检查端口

部署模型（DeepSeek R1 32B）

📦 添加自定义模型

⚠️ 注意事项

🔗 相关链接

Source Transparency

Related Skills

Gpu Deploy

ROCm vLLM Deployment

Hardware LLM Optimizer v2 (llmfit)

Ai Cv Weekly

llm-deploy

Safety Notice

Copy this and send it to your AI assistant to learn

🚀 LLM 部署技能

✨ 功能特点

📋 快速开始

1. 配置服务器

2. 检查服务器状态

3. 部署模型

🎛️ 可用命令

check - 检查服务器状态

deploy - 部署模型

list - 列出可用模型

ps - 查看运行中的服务

stop - 停止服务

🔧 手动使用（无脚本）

检查 GPU

检查端口

部署模型（DeepSeek R1 32B）

📦 添加自定义模型

⚠️ 注意事项

🔗 相关链接

Source Transparency

Related Skills

Gpu Deploy

ROCm vLLM Deployment

Hardware LLM Optimizer v2 (llmfit)

Ai Cv Weekly

`check` - 检查服务器状态

`deploy` - 部署模型

`list` - 列出可用模型

`ps` - 查看运行中的服务

`stop` - 停止服务