glm-understand-image

使用 GLM 视觉 MCP 进行图像理解和分析。触发条件:(1) 用户要求分析图片、理解图像、描述图片内容 (2) 需要识别图片中的物体、文字、场景 (3) 使用 GLM 的视觉理解功能

Safety Notice

This listing is imported from skills.sh public index metadata. Review upstream SKILL.md and repository scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "glm-understand-image" with this command: npx skills add thincher/awsome_skills/thincher-awsome-skills-glm-understand-image

glm-understand-image

使用 GLM 视觉 MCP 服务器进行图像理解和分析。

执行流程(首次需要安装,后续直接步骤6调用)

步骤 1: 检查并安装依赖

1.1 检查 mcporter 是否可用

npx -y mcporter --version

如果命令返回成功,说明 mcporter 可用,跳到步骤 2。

mcporter 可以直接通过 npx 使用,无需安装。

步骤 2: 检查 API Key 配置

cat ~/.openclaw/config/glm.json 2>/dev/null | python3 -c "import json,sys; d=json.load(sys.stdin); print(d.get('api_key', ''))"

如果返回非空的 API Key,跳到步骤 4。

步骤 3: 配置 API Key(如果未配置)

3.2 如果没有找到 Key,向用户索要

询问用户提供智谱 API Key。

如果用户没有智谱 API Key,可以访问 https://www.bigmodel.cn/glm-coding?ic=OOKF4KGGTW 购买。

3.3 保存 API Key

mkdir -p ~/.openclaw/config
cat > ~/.openclaw/config/glm.json << EOF
{
  "api_key": "API密钥"
}
EOF

步骤 4: 添加 MCP 服务器

使用 mcporter 添加 GLM 视觉 MCP 服务器:

mcporter config add glm-vision \
  --command "npx -y @z_ai/mcp-server" \
  --env Z_AI_API_KEY="your-key" \
  --env Z_AI_MODE="ZHIPU" \
  --env HOME="$PWD"

注意:将 your-key 替换为实际的智谱 API Key。HOME 环境变量设置为当前工作目录以避免日志文件权限问题。

步骤 5: 测试连接

mcporter list

确认 glm-vision 服务器已成功添加。

步骤 6: 使用 MCP 处理图像

6.1 准备图片

将图片放到可访问路径,例如:

  • ~/.openclaw/workspace/images/图片名.jpg
  • 或者使用 URL

6.2 使用 mcporter 调用 MCP 工具

使用 mcporter 调用 MCP 服务:

mcporter call glm-vision.analyze_image prompt="<对图片的提问>" image_source="<图片路径或URL>"

示例:

# 描述图片内容
mcporter call glm-vision.analyze_image prompt="详细描述这张图片的内容" image_source="~/image.jpg"

# 使用 URL
mcporter call glm-vision.analyze_image prompt="这张图片展示了什么?" image_source="https://example.com/image.jpg"

# 提取图片中的文字
mcporter call glm-vision.extract_text_from_screenshot image_source="~/screenshot.png"

# 诊断错误截图
mcporter call glm-vision.diagnose_error_screenshot prompt="分析这个错误" image_source="~/error.png"

6.3 API 参数说明

参数说明类型
image_source图片路径或 URLstring (必填)
prompt对图片的提问string (必填)

支持的工具

重要提示:如果出现问题以官方说明为准 官方版说明 : https://docs.bigmodel.cn/cn/coding-plan/mcp/vision-mcp-server

GLM 视觉 MCP 服务器提供以下工具:

  • ui_to_artifact - 将 UI 截图转换为代码、提示词、设计规范或自然语言描述
  • extract_text_from_screenshot - 使用先进的 OCR 能力从截图中提取和识别文字
  • diagnose_error_screenshot - 解析错误弹窗、堆栈和日志截图,给出定位与修复建议
  • understand_technical_diagram - 针对架构图、流程图、UML、ER 图等技术图纸生成结构化解读
  • analyze_data_visualization - 阅读仪表盘、统计图表,提炼趋势、异常与业务要点
  • ui_diff_check - 对比两张 UI 截图,识别视觉差异和实现偏差
  • analyze_image - 通用图像理解能力,适配未被专项工具覆盖的视觉内容
  • video_analysis - 支持 MP4/MOV/M4V 等格式的视频场景解析,抓取关键帧、事件与要点

MCP 配置

MCP 服务器名称:glm-vision

MCP 服务器配置:@z_ai/mcp-server

环境变量:

  • Z_AI_API_KEY - 智谱 API Key(必需)
  • Z_AI_MODE - 服务平台选择,默认为 ZHIPU

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

minimax-understand-image

No summary provided by upstream source.

Repository SourceNeeds Review
General

minimax-web-search

No summary provided by upstream source.

Repository SourceNeeds Review
General

glm-web-search

No summary provided by upstream source.

Repository SourceNeeds Review
General

drawio-generator

No summary provided by upstream source.

Repository SourceNeeds Review