Qwen 方言语音识别 Skill - 极简版
基于通义千问 Qwen3-ASR-0.6B 模型的语音转文字服务,支持 22 种中文方言和 30 种语言识别。
功能特性
- 🎤 支持 22 种中文方言识别
- 🌐 支持 30 种国际语言
- 💻 CPU 端运行,无需 GPU
- 🔍 自动语言检测
- ⚡ 低延迟,高准确率
- 📦 极简版:仅包含 0.6B 模型,无强制对齐功能
🗣️ 支持的中文方言
安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语(香港口音)、粤语(广东口音)、吴语、闽南语。
🚀 快速开始
安装
# 克隆项目
git clone <repository-url>
cd qwen-asr-skill
# 安装依赖
npm install
pip install -r requirements.txt
# 启动服务
npm start
🔧 使用方式
安装并启用后,直接在 OpenClaw 中发送语音消息即可,系统会自动识别方言并转为文字。
📡 API 接口
POST /transcribe
音频转文字接口
请求参数:
audio:音频文件或 base64 编码的音频数据(必需)language:指定语言/方言(可选,如:"四川话"、"粤语"等)timestamps:是否返回时间戳(可选,默认 false)
响应示例:
{
"success": true,
"data": {
"text": "识别结果文本",
"language": "Sichuan",
"confidence": 0.98,
"duration": 1.23
}
}
📊 性能指标
- 推理速度:实时音频的 1.5-2 倍速(8 核 CPU)
- 内存占用:6-8GB 运行时
- 支持音频时长:最长 5 分钟
- 方言识别 WER:<16%(平均)
🔍 极简版特点
与完整版相比,极简版(Minimal)的特点:
| 特性 | 极简版 | 完整版 |
|---|---|---|
| 模型大小 | ~6GB | ~6GB + ~2GB |
| 强制对齐 | ❌ | ✅ |
| 时间戳 | ❌ | ✅ |
| RAM 占用 | 6-8GB | 6-10GB |
| 适用场景 | 基础 ASR | 需要时间戳的场景 |
🔒 隐私保护
- 所有语音处理在本地完成
- 模型权重在首次运行时自动从 Hugging Face 下载(约 6GB - 仅 0.6B 模型)
- 处理完的音频文件会自动删除,不会存储
- 不收集任何用户语音数据和识别内容
🤝 贡献
欢迎提交 Issue 和 Pull Request 来改进这个 Skill!
📄 许可证
Apache-2.0