System Watchdog
本技能专门用于从底层日志和 CLI 数据中提取真实的系统运行状态,确保汇报内容"有据可查",杜绝幻觉。
🚨 安全红线 (Security Policy)
严禁在报告中暴露以下敏感信息:
敏感类型 示例 处理规则
API Key sk-abc123... , Bearer token
❌ 完全禁止
Provider 账号标识 moonshot:default
❌ 禁止,只保留 provider 名称
密钥文件路径 ~/.openclaw/secrets/...
❌ 完全禁止
模型名称 moonshot/kimi-k2.5
✅ 允许显示
Provider 名称 moonshot , google , anthropic
✅ 允许显示
核心职责
-
日志穿透:读取 gateway.log 和 gateway.err.log 获取重启、错误和模型切换记录。
-
LLM 健康追踪:捕获 provider 冷却、auth 失败、rate limit、failover 链路等详细信息。
-
任务追踪:准确汇报 Cron 任务的最近运行结果(成功/失败、耗时)。
-
中文输出:所有汇报内容必须使用中文,采用适合手机端阅读的排版风格。
工作流
-
数据获取:运行脚本 health_fetcher.py 获取过去 2 小时的 JSON 概览。
-
状态判断:
-
如果有 Gateway 重启,分析是 SIGUSR1 (配置重载)还是异常崩溃。
-
如果有 LLM Fallback,分析失败代码(如 429, 500)。
-
生成报告:按照固定模板输出中文审计报告。
手机端排版规范
-
单级列表:禁止嵌套。
-
Emoji 导航:
-
🛰️ Gateway 状态
-
🧠 模型路由审计
-
🕒 定时任务追踪
-
🛡️ 自愈事件 (Watchdog)
-
⚠️ 异常预警
-
精简文字:每条目不超过 3 行。
报告模板
🧠 LLM 路由健康
-
受影响 Providers:列出所有受影响的 provider
-
冷却事件:按时间列出 provider 和状态
-
错误统计:Auth 失败、Rate limit、Timeout 次数
-
Failover 链:展示模型切换路径
🛡️ 自愈事件
-
如果有配置恢复 → 列出恢复时间和来源版本
-
如果有 Gateway 重启 → 列出重启时间、原因和结果
-
如果都无 → 显示 "过去2小时无自愈事件"
🕒 定时任务追踪
-
列出所有任务:名称、执行计划、启用状态
-
显示上次运行时间和状态
-
如果 enabled: false → 标注为「已禁用」