Qwen Asr Skill

# Qwen 方言语音识别 Skill - 极简版

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "Qwen Asr Skill" with this command: npx skills add yszheda/qwen-asr-skill

Qwen 方言语音识别 Skill - 极简版

基于通义千问 Qwen3-ASR-0.6B 模型的语音转文字服务，支持 22 种中文方言和 30 种语言识别。

功能特性

🎤 支持 22 种中文方言识别
🌐 支持 30 种国际语言
💻 CPU 端运行，无需 GPU
🔍 自动语言检测
⚡ 低延迟，高准确率
📦 极简版：仅包含 0.6B 模型，无强制对齐功能

🗣️ 支持的中文方言

安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语（香港口音）、粤语（广东口音）、吴语、闽南语。

🚀 快速开始

安装

# 克隆项目
git clone <repository-url>
cd qwen-asr-skill

# 安装依赖
npm install
pip install -r requirements.txt

# 启动服务
npm start

🔧 使用方式

安装并启用后，直接在 OpenClaw 中发送语音消息即可，系统会自动识别方言并转为文字。

📡 API 接口

POST /transcribe

音频转文字接口

请求参数：

audio：音频文件或 base64 编码的音频数据（必需）
language：指定语言/方言（可选，如："四川话"、"粤语"等）
timestamps：是否返回时间戳（可选，默认 false）

响应示例：

{
  "success": true,
  "data": {
    "text": "识别结果文本",
    "language": "Sichuan",
    "confidence": 0.98,
    "duration": 1.23
  }
}

📊 性能指标

推理速度：实时音频的 1.5-2 倍速（8 核 CPU）
内存占用：6-8GB 运行时
支持音频时长：最长 5 分钟
方言识别 WER：<16%（平均）

🔍 极简版特点

与完整版相比，极简版（Minimal）的特点：

特性	极简版	完整版
模型大小	~6GB	~6GB + ~2GB
强制对齐	❌	✅
时间戳	❌	✅
RAM 占用	6-8GB	6-10GB
适用场景	基础 ASR	需要时间戳的场景

🔒 隐私保护

所有语音处理在本地完成
模型权重在首次运行时自动从 Hugging Face 下载（约 6GB - 仅 0.6B 模型）
处理完的音频文件会自动删除，不会存储
不收集任何用户语音数据和识别内容

🤝 贡献

欢迎提交 Issue 和 Pull Request 来改进这个 Skill！

📄 许可证

Apache-2.0

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Open Registry Record Open in ClawHub

Related Skills

Related by shared tags or category signals.

General

Asr Skill

基于Qwen3-ASR-0.6B的语音转文字Skill，支持22种中文方言和多语言识别，让你可以用方言和OpenClaw交流。

Registry SourceRecently Updated

1160Profile unavailable

General

iFlytek ASR - 讯飞语音转文字

使用科大讯飞 API 将音频/视频转换为文字。支持本地音频文件转录、YouTube 视频下载并转文字。适用于会议记录、视频字幕、语音笔记等场景。当用户需要语音转文字、音频转录、YouTube 视频转文字时触发。

Registry SourceRecently Updated

1240Profile unavailable

General

TencentCloud ASR

腾讯云语音识别 ASR Skill，适用于语音转文字、音频转写、字幕生成、会议转录、语音消息识别、本地文件或 URL 音频识别。包含三种模式：一句话识别（<=60s 短音频）、录音识别极速版（<=2h/100MB 中长音频快速同步返回）、录音识别（<=5h 长音频异步识别）。支持普通话、英语、粤语、日语、韩...

Registry SourceRecently Updated

4671Profile unavailable

General

Chinese LLM Router

Route OpenClaw chats to top Chinese LLMs with smart model selection, auto-fallback, cost tracking, and unified OpenAI-compatible API access.

Registry SourceRecently Updated

5990Profile unavailable