SkillsBench Evaluator - Skill 质量测评工具

⚠️ 安全说明

本 Skill 仅进行静态文档分析，不执行任何代码，不访问网络，不修改文件系统。

所有测评基于 SKILL.md 文档内容，不涉及实际运行测试。

概述

本 Skill 基于 SkillsBench 开源测评框架的方法论，为 OpenClaw 内网版提供专业的 Skill 质量评估能力。

核心价值:

🎯 全面评估: 覆盖触发准确性、文档质量、结构完整性等多维度
📊 量化指标: 提供可量化的评分和改进建议
📄 安全可靠: 纯静态分析，无代码执行风险
🔄 迭代优化: 帮助 Skill 作者持续改进文档质量

测评模式：静态文档分析

特点:

⚡ 快速 - 几秒钟完成
✅ 安全 - 不执行任何命令
📄 基于文档 - 分析 SKILL.md 内容
🔒 无风险 - 只读操作

适用场景:

评估 Skill 文档质量
快速筛选多个 Skills
检查文档规范性
上传前质量检查

评估内容:

✅ Description 设计质量
✅ 文档结构和完整性
✅ 示例代码格式
✅ 资源文件组织
✅ 触发准确性设计

使用方式:

请测评 westock-data skill
请检查 tapd skill 的文档规范性
帮我评估 weather skill 的质量

评测维度

1. 触发准确性 (Trigger Accuracy) - 权重 30%

评估 Skill 的 description 字段是否能准确触发。

测试方法:

分析 description 是否清晰完整
检查是否包含关键触发词汇
评估是否明确了与其他 Skills 的分工
验证触发词是否容易误触发

评分标准:

✅ 优秀 (90-100分): description 清晰全面，触发准确，无误触发风险
🟡 良好 (70-89分): 大部分场景触发正确，少数边界情况不准确
🟠 一般 (50-69分): 触发不稳定，description 需要改进
❌ 较差 (低于50分): description 不清晰，容易误触发或不触发

常见问题:

Description 过于宽泛，容易误触发
缺少明确的使用场景说明
触发词与其他 Skills 冲突
描述与实际功能不符

2. 文档质量 (Documentation Quality) - 权重 30%

评估 Skill 文档的清晰度、结构和可读性。

测试方法:

检查文档结构是否合理（标题层级、章节组织）
评估示例是否充分且实用
验证是否遵循 OpenClaw Skill 规范
检查格式是否统一（代码块、列表、表格）
评估说明是否清晰易懂

评分标准:

✅ 优秀 (90-100分): 文档结构清晰，示例丰富，遵循规范，易读性强
🟡 良好 (70-89分): 文档基本清晰，示例充足，少量格式问题
🟠 一般 (50-69分): 文档结构混乱或示例不足，可读性差
❌ 较差 (低于50分): 文档不清晰，缺少关键信息，难以理解

检查清单:

是否有清晰的概述章节
是否包含使用示例
是否说明了依赖项和环境要求
是否有错误处理说明
代码块是否有语法高亮标记
表格格式是否规范

3. 执行完整性 (Execution Completeness) - 权重 25%

评估 Skill 的指令描述是否完整、清晰、可理解。

注意: 此维度仅评估文档层面的完整性，不实际执行代码。

测试方法:

检查 SKILL.md 中的步骤是否完整
验证示例代码格式是否正确
检查是否包含必要的错误处理指引
评估参数说明是否完整
验证返回格式说明是否清晰

评分标准:

✅ 优秀 (90-100分): 指令完整清晰，文档描述准确，步骤详细
🟡 良好 (70-89分): 核心功能文档完整，部分细节需补充
🟠 一般 (50-69分): 文档不完整或描述不清，缺少关键步骤
❌ 较差 (低于50分): 指令不完整，缺少关键说明，无法理解

检查项目:

是否说明了每个步骤的目的
是否提供了完整的参数说明
是否描述了预期的输出格式
是否说明了可能的错误情况
是否提供了故障排查指引

4. 资源组织 (Resource Organization) - 权重 15%

评估 scripts/references/assets 等资源文件的组织是否合理。

测试方法:

检查文件目录结构是否符合规范
验证资源文件是否正确引用
评估是否遵循渐进式披露原则
检查文件命名是否规范
评估 references/ 目录的组织

评分标准:

✅ 优秀 (90-100分): 目录结构清晰，资源引用正确，遵循最佳实践
🟡 良好 (70-89分): 结构合理，少量组织问题
🟠 一般 (50-69分): 结构混乱或资源引用不清晰
❌ 较差 (低于50分): 严重违反规范，资源组织混乱

最佳实践:

skill-name/
├── SKILL.md              # 主文档，简洁清晰
├── references/           # 详细参考文档
│   ├── api-reference.md
│   └── examples.md
├── scripts/              # 辅助脚本（如有）
└── assets/               # 图片等资源

使用流程

第 1 步: 读取 Skill 内容

read /path/to/skill/SKILL.md

如果包含 references/ 或 scripts/ 目录，也需要读取：

ls /path/to/skill/references/
ls /path/to/skill/scripts/

第 2 步: 进行多维度评估

按照 4 个维度逐一评估，每个维度给出：

评分（0-100）
发现的问题
改进建议

第 3 步: 生成测评报告

生成结构化的测评报告，包括：

综合得分和评级
各维度详细分析
发现的问题清单
具体改进建议

测评报告模板

生成的测评报告应遵循以下结构：

# Skill 测评报告: SKILL_NAME

**测评时间:** YYYY-MM-DD HH:MM
**测评模式:** 静态文档分析
**测评版本:** VERSION_IF_AVAILABLE  
**测评者:** OpenClaw SkillsBench Evaluator

---

## 📊 总体评分

**综合得分:** XX/100 ⭐⭐⭐⭐⭐

| 维度 | 得分 | 等级 | 权重 | 加权得分 |
|------|------|------|------|---------|
| 触发准确性 | XX/100 | ✅/🟡/🟠/❌ | 30% | XX.X |
| 文档质量 | XX/100 | ✅/🟡/🟠/❌ | 30% | XX.X |
| 执行完整性 | XX/100 | ✅/🟡/🟠/❌ | 25% | XX.X |
| 资源组织 | XX/100 | ✅/🟡/🟠/❌ | 15% | XX.X |

**评级:** ✅ 优秀 / 🟡 良好 / 🟠 一般 / ❌ 较差

---

## ✨ 优点

1. [列出 Skill 的优点]
2. ...

---

## ⚠️ 发现的问题

### 严重问题 (P0)
- [ ] [具体问题描述]

### 重要问题 (P1)
- [ ] [具体问题描述]

### 一般问题 (P2)
- [ ] [具体问题描述]

---

## 💡 改进建议

### 优先级 1 (立即修复)
1. [具体建议，包括修改位置和修改方法]

### 优先级 2 (短期优化)
1. [具体建议]

### 优先级 3 (长期改进)
1. [具体建议]

---

## 📝 详细分析

### 1. 触发准确性分析

**Description 内容:**

[当前的 description]


**分析:**
- [分析 description 的优缺点]
- [是否容易触发]
- [是否有误触发风险]

**改进建议:**
- [具体的改进建议]

---

### 2. 文档质量分析

**文档结构:**
- [分析文档的章节组织]
- [评估示例的充分性]
- [检查格式规范性]

**发现的问题:**
- [列出具体问题]

**改进建议:**
- [具体的改进建议]

---

### 3. 执行完整性分析

**指令完整性:**
- [分析步骤是否完整]
- [评估参数说明是否清晰]
- [检查错误处理说明]

**发现的问题:**
- [列出具体问题]

**改进建议:**
- [具体的改进建议]

---

### 4. 资源组织分析

**目录结构:**

[显示实际的目录结构]


**分析:**
- [评估目录组织是否合理]
- [检查文件命名规范]
- [验证资源引用正确性]

**改进建议:**
- [具体的改进建议]

---

## 🎯 总结

[总结性评价和核心建议]

**关键改进点:**
1. [最重要的改进建议]
2. [次重要的改进建议]
3. [其他建议]

---

**测评完成时间:** YYYY-MM-DD HH:MM  
**测评工具版本:** skillsbench-evaluator v3.0 (静态分析专版)

批量测评模式

当需要测评多个 Skill 时：

获取 Skills 列表：

ls ~/.openclaw/skills/

逐个测评并生成报告
生成对比报告：

# Skills 横向对比报告

| Skill Name | 综合得分 | 触发准确性 | 文档质量 | 执行完整性 | 资源组织 | 评级 |
|------------|---------|-----------|---------|-----------|---------|------|
| skill-a    | 92      | 95        | 90      | 90        | 92      | ✅ 优秀 |
| skill-b    | 78      | 75        | 80      | 75        | 82      | 🟡 良好 |
| skill-c    | 65      | 70        | 65      | 60        | 68      | 🟠 一般 |

**排名说明:**
- 排名基于综合得分
- 优先考虑文档质量和触发准确性
- 建议关注低于 70 分的 Skills

📋 开发者自测清单

在提交 Skill 到平台前，建议开发者自行完成以下检查：

文档质量

SKILL.md 包含清晰的概述
提供了充分的使用示例
说明了依赖项和环境要求
包含错误处理说明
代码块有正确的语法高亮标记
表格格式规范

Description 设计

Description 清晰描述了功能
包含了主要触发关键词
明确了适用场景
避免与其他 Skills 描述冲突
长度适中（建议 100-300 字符）

文档完整性

资源组织

使用限制

为保证安全性，本 Skill 有以下限制：

✅ 可以: 读取 SKILL.md 和 references/ 目录
✅ 可以: 分析文档结构和内容
✅ 可以: 生成测评报告
✅ 可以: 提供改进建议
❌ 不可以: 执行任何脚本或命令
❌ 不可以: 访问网络
❌ 不可以: 修改文件
❌ 不可以: 实际运行测试

参考资料

详细的评测方法论和最佳实践，请参考：

SkillsBench 官方网站
SkillsBench 论文
SkillsBench GitHub
references/evaluation-guidelines.md - 详细评测指南

注意事项

客观公正: 测评应基于具体事实和标准，避免主观臆断
建设性: 重点提供可操作的改进建议，而非仅仅批评
版本追踪: 建议在测评报告中记录 Skill 版本，便于追踪改进
迭代优化: 测评后应协助 Skill 作者进行改进和复测
安全第一: 本工具只进行静态分析，不执行任何代码，确保安全可靠

更新日志

v3.0 (2026-04-28) - 安全强化版

✅ 移除动态测试功能，专注静态分析
✅ 增强安全性，无代码执行风险
✅ 优化评分维度权重
✅ 增加开发者自测清单
✅ 改进文档结构和可读性

v2.0 (历史版本)

支持动态测试模式（已废弃，存在安全风险）

v1.0 (初始版本)

基础静态文档分析功能