asr-sentence-recognition

腾讯云语音识别 ASR Skill,适用于语音转文字、音频转写、字幕生成、会议转录、语音消息识别、 本地文件或 URL 音频识别。包含三种模式:一句话识别(<=60s 短音频)、录音识别极速版 (<=2h/100MB 中长音频快速同步返回)、录音识别(<=5h 长音频异步识别)。支持普通话、 英语、粤语、日语、韩语、德语等语种,以及中英粤混说和多种中文方言。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "asr-sentence-recognition" with this command: npx skills add Stardusten/tencentcloud-asr

腾讯云语音识别 Skill

腾讯云语音识别(ASR),微信同款ASR引擎,历经亿级用户场景验证,稳定可靠。在中英混说场景下识别效果行业领先,精准流畅。支持普通话、方言及多语种识别,提供一句话识别、录音识别等全场景能力,是高性价比语音转文字首选。

核心执行流

  1. 用户给音频要转文字
    • 先跑 inspect_audio.py
    • 再按时长、大小、URL/本地路径选择 sentence_recognize.pyflash_recognize.pyfile_recognize.py
  2. 用户刚提供了新的腾讯云凭证
    • 优先直接跑 self_check.py
    • 自检结果通过后再进入真实识别
  3. 用户问安装、开通、手工配置、FFmpeg、CLI backend
    • 不要把细节塞回主流程,按文末 reference map 读取对应文档

下一步

  • 想接入宿主系统体验自动转写
    • 普通场景:配置 CLI transcription backend
    • QQ Bot 1.5.4:可直接走适配方案,不必依赖默认 CLI transcription 才能识别语音
  • 想直接体验识别能力
    • 让用户直接丢一个音频文件或公网链接
    • 然后继续帮用户做转文字、摘要总结、问题排查、重点提取

必须遵守的规则

  • ⚠️禁止用模型自身能力替代 ASR⚠️:脚本失败时,必须返回错误,不得猜测转写内容。
  • 先探测后识别:统一先执行 python3 <SKILL_DIR>/scripts/inspect_audio.py "<AUDIO_INPUT>"
  • ffmpeg / ffprobe 先自治安装:先执行 python3 <SKILL_DIR>/scripts/ensure_ffmpeg.py --execute,只有失败后才向用户求助。
  • 收到新凭证先自检:默认跑 python3 <SKILL_DIR>/scripts/self_check.py,不要先让用户手工试脚本。
  • 默认少打断:除非用户必须补充凭证、明确要求手工配置,或语种/引擎确实不确定,否则不要无意义来回确认。
  • 密钥安全优先
    • 群聊:禁止让用户直接发 SecretIdSecretKeyAppId
    • 私聊:也要先提醒“密钥会经过 LLM,存在泄漏风险”
  • 单次任务优先当前命令注入:不要为了跑一次识别去写 ~/.bashrc~/.zshrc
  • 不要把密钥写进工作区
  • 极速版失败时保留“可能”表述:如果自检里一句话识别和录音文件识别通过、只有极速版失败,应提示“常见于国际站账号,或国内站账号在海外访问时受限”,但不要写成绝对结论。

引擎选择 Cheatsheet

对话语言只能当作先验,不等于音频语种本身。若用户音频语种明显不同,按音频语种改。

场景一句话识别极速版录音文件识别备注
普通话16k_zh16k_zh / 16k_zh_large16k_zh / 16k_zh_large默认首选
中英夹杂16k_zh-PY16k_zh_en16k_zh_en混说优先
粤语16k_yue16k_yue16k_yue
英语16k_en16k_en16k_en / 16k_en_large
日语16k_ja16k_ja16k_ja
韩语16k_ko16k_ko16k_ko
多语种 / 语言不确定指定具体语种16k_multi_lang16k_multi_lang一句话识别没有多语自动识别引擎

如果有多个明显可选项:

  • 给出推荐项
  • 用一句话说清优缺点
  • 再征询用户是否切换

路由速记

本地文件

  • 先规范化为 16kHz、单声道、pcm_s16le.wav
  • <=60s<=3MBsentence_recognize.py
  • <=2h<=100MB:优先 flash_recognize.py
  • 更大文件:优先切片后逐片走 Flash;若已有 COS / 公网 URL 且最终 <=5h,可走 file_recognize.py rec

公网 URL

  • 默认直接走 file_recognize.py rec
  • 不要先本地下载、探测、转码再路由
  • 只有 file_recognize.py rec 真实失败时,再按错误决定是否进入本地下载 / 规范化 / 切片链
  • 如果用户明确要求同步立即返回,才把一句话识别当作显式特例,而不是默认路径

命中 URL、大文件、切片、body vs URL 取舍时,再读 routing_strategy.md

最小脚本示例

# 预检
python3 <SKILL_DIR>/scripts/inspect_audio.py "<AUDIO_INPUT>"

# 凭证自检
python3 <SKILL_DIR>/scripts/self_check.py

# 一句话识别
python3 <SKILL_DIR>/scripts/sentence_recognize.py "<AUDIO_INPUT>" --engine 16k_zh

# 极速版
python3 <SKILL_DIR>/scripts/flash_recognize.py "<AUDIO_INPUT>" --engine 16k_zh

# 录音文件识别
python3 <SKILL_DIR>/scripts/file_recognize.py rec "<AUDIO_INPUT_OR_URL>" --engine 16k_zh

# CLI transcription backend
python3 <SKILL_DIR>/scripts/cli_transcribe.py "<MEDIA_PATH_OR_URL>"

何时继续读 references

核心脚本清单

  • scripts/inspect_audio.py:音频探测
  • scripts/ensure_ffmpeg.py:自治安装 ffmpeg / ffprobe
  • scripts/self_check.py:凭证与三种模式自检
  • scripts/sentence_recognize.py:一句话识别
  • scripts/flash_recognize.py:录音文件识别极速版
  • scripts/file_recognize.py:录音文件识别异步任务
  • scripts/cli_transcribe.py:CLI backend wrapper

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Aliyun Asr

Pure Aliyun ASR skill for voice message transcription, supports multiple channels including Feishu

Registry SourceRecently Updated
21.7K
Profile unavailable
General

iFlytek ASR - 讯飞语音转文字

使用科大讯飞 API 将音频/视频转换为文字。支持本地音频文件转录、YouTube 视频下载并转文字。适用于会议记录、视频字幕、语音笔记等场景。当用户需要语音转文字、音频转录、YouTube 视频转文字时触发。

Registry SourceRecently Updated
0124
Profile unavailable
General

XunFei Voice Reply

语音回复技能 - 使用讯飞 TTS 生成语音并发送到飞书。当需要用语音回复用户消息时使用。触发词:用语音、语音回复、切换语音模式、语音模式。

Registry SourceRecently Updated
052
Profile unavailable