SkillsBench Evaluator - Skill 质量测评工具
⚠️ 安全说明
本 Skill 仅进行静态文档分析,不执行任何代码,不访问网络,不修改文件系统。
所有测评基于 SKILL.md 文档内容,不涉及实际运行测试。
概述
本 Skill 基于 SkillsBench 开源测评框架的方法论,为 OpenClaw 内网版提供专业的 Skill 质量评估能力。
核心价值:
- 🎯 全面评估: 覆盖触发准确性、文档质量、结构完整性等多维度
- 📊 量化指标: 提供可量化的评分和改进建议
- 📄 安全可靠: 纯静态分析,无代码执行风险
- 🔄 迭代优化: 帮助 Skill 作者持续改进文档质量
测评模式:静态文档分析
特点:
- ⚡ 快速 - 几秒钟完成
- ✅ 安全 - 不执行任何命令
- 📄 基于文档 - 分析 SKILL.md 内容
- 🔒 无风险 - 只读操作
适用场景:
- 评估 Skill 文档质量
- 快速筛选多个 Skills
- 检查文档规范性
- 上传前质量检查
评估内容:
- ✅ Description 设计质量
- ✅ 文档结构和完整性
- ✅ 示例代码格式
- ✅ 资源文件组织
- ✅ 触发准确性设计
使用方式:
请测评 westock-data skill
请检查 tapd skill 的文档规范性
帮我评估 weather skill 的质量
评测维度
1. 触发准确性 (Trigger Accuracy) - 权重 30%
评估 Skill 的 description 字段是否能准确触发。
测试方法:
- 分析 description 是否清晰完整
- 检查是否包含关键触发词汇
- 评估是否明确了与其他 Skills 的分工
- 验证触发词是否容易误触发
评分标准:
- ✅ 优秀 (90-100分): description 清晰全面,触发准确,无误触发风险
- 🟡 良好 (70-89分): 大部分场景触发正确,少数边界情况不准确
- 🟠 一般 (50-69分): 触发不稳定,description 需要改进
- ❌ 较差 (低于50分): description 不清晰,容易误触发或不触发
常见问题:
- Description 过于宽泛,容易误触发
- 缺少明确的使用场景说明
- 触发词与其他 Skills 冲突
- 描述与实际功能不符
2. 文档质量 (Documentation Quality) - 权重 30%
评估 Skill 文档的清晰度、结构和可读性。
测试方法:
- 检查文档结构是否合理(标题层级、章节组织)
- 评估示例是否充分且实用
- 验证是否遵循 OpenClaw Skill 规范
- 检查格式是否统一(代码块、列表、表格)
- 评估说明是否清晰易懂
评分标准:
- ✅ 优秀 (90-100分): 文档结构清晰,示例丰富,遵循规范,易读性强
- 🟡 良好 (70-89分): 文档基本清晰,示例充足,少量格式问题
- 🟠 一般 (50-69分): 文档结构混乱或示例不足,可读性差
- ❌ 较差 (低于50分): 文档不清晰,缺少关键信息,难以理解
检查清单:
- 是否有清晰的概述章节
- 是否包含使用示例
- 是否说明了依赖项和环境要求
- 是否有错误处理说明
- 代码块是否有语法高亮标记
- 表格格式是否规范
3. 执行完整性 (Execution Completeness) - 权重 25%
评估 Skill 的指令描述是否完整、清晰、可理解。
注意: 此维度仅评估文档层面的完整性,不实际执行代码。
测试方法:
- 检查 SKILL.md 中的步骤是否完整
- 验证示例代码格式是否正确
- 检查是否包含必要的错误处理指引
- 评估参数说明是否完整
- 验证返回格式说明是否清晰
评分标准:
- ✅ 优秀 (90-100分): 指令完整清晰,文档描述准确,步骤详细
- 🟡 良好 (70-89分): 核心功能文档完整,部分细节需补充
- 🟠 一般 (50-69分): 文档不完整或描述不清,缺少关键步骤
- ❌ 较差 (低于50分): 指令不完整,缺少关键说明,无法理解
检查项目:
- 是否说明了每个步骤的目的
- 是否提供了完整的参数说明
- 是否描述了预期的输出格式
- 是否说明了可能的错误情况
- 是否提供了故障排查指引
4. 资源组织 (Resource Organization) - 权重 15%
评估 scripts/references/assets 等资源文件的组织是否合理。
测试方法:
- 检查文件目录结构是否符合规范
- 验证资源文件是否正确引用
- 评估是否遵循渐进式披露原则
- 检查文件命名是否规范
- 评估 references/ 目录的组织
评分标准:
- ✅ 优秀 (90-100分): 目录结构清晰,资源引用正确,遵循最佳实践
- 🟡 良好 (70-89分): 结构合理,少量组织问题
- 🟠 一般 (50-69分): 结构混乱或资源引用不清晰
- ❌ 较差 (低于50分): 严重违反规范,资源组织混乱
最佳实践:
skill-name/
├── SKILL.md # 主文档,简洁清晰
├── references/ # 详细参考文档
│ ├── api-reference.md
│ └── examples.md
├── scripts/ # 辅助脚本(如有)
└── assets/ # 图片等资源
使用流程
第 1 步: 读取 Skill 内容
read /path/to/skill/SKILL.md
如果包含 references/ 或 scripts/ 目录,也需要读取:
ls /path/to/skill/references/
ls /path/to/skill/scripts/
第 2 步: 进行多维度评估
按照 4 个维度逐一评估,每个维度给出:
- 评分(0-100)
- 发现的问题
- 改进建议
第 3 步: 生成测评报告
生成结构化的测评报告,包括:
- 综合得分和评级
- 各维度详细分析
- 发现的问题清单
- 具体改进建议
测评报告模板
生成的测评报告应遵循以下结构:
# Skill 测评报告: SKILL_NAME
**测评时间:** YYYY-MM-DD HH:MM
**测评模式:** 静态文档分析
**测评版本:** VERSION_IF_AVAILABLE
**测评者:** OpenClaw SkillsBench Evaluator
---
## 📊 总体评分
**综合得分:** XX/100 ⭐⭐⭐⭐⭐
| 维度 | 得分 | 等级 | 权重 | 加权得分 |
|------|------|------|------|---------|
| 触发准确性 | XX/100 | ✅/🟡/🟠/❌ | 30% | XX.X |
| 文档质量 | XX/100 | ✅/🟡/🟠/❌ | 30% | XX.X |
| 执行完整性 | XX/100 | ✅/🟡/🟠/❌ | 25% | XX.X |
| 资源组织 | XX/100 | ✅/🟡/🟠/❌ | 15% | XX.X |
**评级:** ✅ 优秀 / 🟡 良好 / 🟠 一般 / ❌ 较差
---
## ✨ 优点
1. [列出 Skill 的优点]
2. ...
---
## ⚠️ 发现的问题
### 严重问题 (P0)
- [ ] [具体问题描述]
### 重要问题 (P1)
- [ ] [具体问题描述]
### 一般问题 (P2)
- [ ] [具体问题描述]
---
## 💡 改进建议
### 优先级 1 (立即修复)
1. [具体建议,包括修改位置和修改方法]
### 优先级 2 (短期优化)
1. [具体建议]
### 优先级 3 (长期改进)
1. [具体建议]
---
## 📝 详细分析
### 1. 触发准确性分析
**Description 内容:**
[当前的 description]
**分析:**
- [分析 description 的优缺点]
- [是否容易触发]
- [是否有误触发风险]
**改进建议:**
- [具体的改进建议]
---
### 2. 文档质量分析
**文档结构:**
- [分析文档的章节组织]
- [评估示例的充分性]
- [检查格式规范性]
**发现的问题:**
- [列出具体问题]
**改进建议:**
- [具体的改进建议]
---
### 3. 执行完整性分析
**指令完整性:**
- [分析步骤是否完整]
- [评估参数说明是否清晰]
- [检查错误处理说明]
**发现的问题:**
- [列出具体问题]
**改进建议:**
- [具体的改进建议]
---
### 4. 资源组织分析
**目录结构:**
[显示实际的目录结构]
**分析:**
- [评估目录组织是否合理]
- [检查文件命名规范]
- [验证资源引用正确性]
**改进建议:**
- [具体的改进建议]
---
## 🎯 总结
[总结性评价和核心建议]
**关键改进点:**
1. [最重要的改进建议]
2. [次重要的改进建议]
3. [其他建议]
---
**测评完成时间:** YYYY-MM-DD HH:MM
**测评工具版本:** skillsbench-evaluator v3.0 (静态分析专版)
批量测评模式
当需要测评多个 Skill 时:
- 获取 Skills 列表:
ls ~/.openclaw/skills/
-
逐个测评并生成报告
-
生成对比报告:
# Skills 横向对比报告
| Skill Name | 综合得分 | 触发准确性 | 文档质量 | 执行完整性 | 资源组织 | 评级 |
|------------|---------|-----------|---------|-----------|---------|------|
| skill-a | 92 | 95 | 90 | 90 | 92 | ✅ 优秀 |
| skill-b | 78 | 75 | 80 | 75 | 82 | 🟡 良好 |
| skill-c | 65 | 70 | 65 | 60 | 68 | 🟠 一般 |
**排名说明:**
- 排名基于综合得分
- 优先考虑文档质量和触发准确性
- 建议关注低于 70 分的 Skills
📋 开发者自测清单
在提交 Skill 到平台前,建议开发者自行完成以下检查:
文档质量
- SKILL.md 包含清晰的概述
- 提供了充分的使用示例
- 说明了依赖项和环境要求
- 包含错误处理说明
- 代码块有正确的语法高亮标记
- 表格格式规范
Description 设计
- Description 清晰描述了功能
- 包含了主要触发关键词
- 明确了适用场景
- 避免与其他 Skills 描述冲突
- 长度适中(建议 100-300 字符)
文档完整性
- 每个功能都有说明和示例
- 参数说明完整
- 返回格式说明清晰
- 错误情况有说明
- 提供了故障排查指引
资源组织
- 目录结构符合规范
- 文件命名规范
- 资源引用路径正确
- references/ 目录组织合理
- 遵循渐进式披露原则
使用限制
为保证安全性,本 Skill 有以下限制:
-
✅ 可以: 读取 SKILL.md 和 references/ 目录
-
✅ 可以: 分析文档结构和内容
-
✅ 可以: 生成测评报告
-
✅ 可以: 提供改进建议
-
❌ 不可以: 执行任何脚本或命令
-
❌ 不可以: 访问网络
-
❌ 不可以: 修改文件
-
❌ 不可以: 实际运行测试
参考资料
详细的评测方法论和最佳实践,请参考:
注意事项
- 客观公正: 测评应基于具体事实和标准,避免主观臆断
- 建设性: 重点提供可操作的改进建议,而非仅仅批评
- 版本追踪: 建议在测评报告中记录 Skill 版本,便于追踪改进
- 迭代优化: 测评后应协助 Skill 作者进行改进和复测
- 安全第一: 本工具只进行静态分析,不执行任何代码,确保安全可靠
更新日志
v3.0 (2026-04-28) - 安全强化版
- ✅ 移除动态测试功能,专注静态分析
- ✅ 增强安全性,无代码执行风险
- ✅ 优化评分维度权重
- ✅ 增加开发者自测清单
- ✅ 改进文档结构和可读性
v2.0 (历史版本)
- 支持动态测试模式(已废弃,存在安全风险)
v1.0 (初始版本)
- 基础静态文档分析功能