MS Speech Synth - 微软 TTS 分段合成技能
核心能力
将任意长度的中文文本(数千字以上)转换为 MP3 音频,使用微软 Edge TTS 音色,通过分段合成 + PCM 拼接实现无字符限制的语音生成。支持单文件和文件夹批量处理。
工作流程
长文本 → 按句子分chunk(每chunk ≤1200字)
→ edge-tts 每段生成 MP3(每段之间延迟防止超限)
→ miniaudio 解码 MP3 → PCM bytes
→ 拼接所有 PCM
→ 写入 WAV 文件
→ ffmpeg 转为 MP3
工具依赖
| 工具 | 安装 | 用途 |
|---|---|---|
edge-tts | pip3 install edge-tts | 微软 TTS 引擎 |
miniaudio | pip3 install miniaudio | MP3 解码为 PCM |
ffmpeg | curl -L .../ffmpeg.zip -o /tmp/ffmpeg.zip && unzip -d /tmp/ffmpeg_bin | WAV 转 MP3 |
速率限制(Rate Limit)
⚠️ Edge TTS 是微软必应语音服务的免费接口,非官方 API,无正式 SLA。
限制阈值:
- 单次请求字符上限:约 1000–1500 字符(超出部分被服务器静默截断)
- 连续调用:建议不超过 20–30 次/分钟
- 超过限制会触发
ConnectionResetError,需等待 30–60 秒恢复
速率控制参数 --rate(每 TTS 请求间延迟):
--rate 值 | 实际速率 | 适用场景 |
|---|---|---|
1.5 | 40次/分钟 | 较快,接近上限 |
2.0(默认) | 30次/分钟 | 稳定安全(默认) |
3.0 | 20次/分钟 | 保守模式 |
批量文件夹模式额外策略: 每文件之间再等待 --delay 秒(默认3秒)。
使用方式
单文件模式
python3 ~/.openclaw/workspace/skills/ms-speech-synth/scripts/ms_tts_chunked.py \
--input "/path/to/input.txt" \
--output "/path/to/output" \
--voice "zh-CN-XiaoxiaoNeural"
# 从 Markdown 文件(自动清洗 #标题 **加粗** 等格式)
python3 ~/.openclaw/workspace/skills/ms-speech-synth/scripts/ms_tts_chunked.py \
--input "/path/to/notes.md" \
--output "/path/to/output"
文件夹批量模式
处理整个文件夹下所有 .txt 和 .md 文件,自动降速防限流:
python3 ~/.openclaw/workspace/skills/ms-speech-synth/scripts/ms_tts_chunked.py \
--input "/path/to/folder/" \
--output "/path/to/output_folder/" \
--delay 3 # 每文件间等待3秒(默认)
--rate 2.0 # 每TTS请求间等待2秒(默认)
批量模式输出示例:
[MS-TTS] Found 5 files to process
[MS-TTS] [1/5] Processing: chapter1.txt
[MS-TTS] Chunk 1/3 (800 chars), waiting 2s...
[MS-TTS] Chunk 2/3 (1100 chars), waiting 2s...
[MS-TTS] Chunk 3/3 (900 chars)
[MS-TTS] ✓ Done: chapter1.mp3 (3 chunks, 4.2MB, 180s)
[MS-TTS] Waiting 3s before next file...
[MS-TTS] [2/5] Processing: chapter2.md
...
[MS-TTS] === Batch complete: 5 ok, 0 failed ===
Python 模块导入
from scripts.ms_tts_chunked import synthesize_text, synthesize_file, synthesize_dir
# 单文件
result = synthesize_file("/path/to/input.txt", "/path/to/output",
voice="zh-CN-XiaoxiaoNeural",
rate_limit_delay=2.0) # 每chunk之间2秒
# 批量文件夹
results = synthesize_dir(
input_dir="/path/to/folder/",
output_dir="/path/to/output/",
voice="zh-CN-XiaoxiaoNeural",
delay=3.0, # 文件间等待3秒
rate_limit_delay=2.0 # chunk间等待2秒(30次/分钟)
)
关键参数
| 参数 | 默认值 | 说明 |
|---|---|---|
--voice | zh-CN-XiaoxiaoNeural | 微软中文女声(晓晓) |
--chunk | 1200 | 每段最大字符数(建议 1000-1500) |
--delay | 3.0 | 批量模式:每文件间延迟秒数 |
--rate | 2.0 | 每TTS请求间延迟秒数(2s=30次/分钟,3s=20次/分钟) |
--ffmpeg | 自动查找 | FFmpeg 路径(转 MP3 用) |
其他可用声音
zh-CN-XiaoxiaoNeural # 晓晓 - 推荐女声
zh-CN-YunxiNeural # 云希 - 男声
zh-CN-YunyangNeural # 云扬 - 新闻风格
zh-HK-HiuMaanNeural # 香港粤语
zh-TW-HsiaoYuNeural # 台湾女声
Markdown 格式清洗
输入文件为 .md 时,自动将格式控制符转为自然朗读:
| 原始格式 | 转换效果 |
|---|---|
# 标题 | "标题:xxx" |
## 小标题 | "小标题:xxx" |
- 要点 / * 要点 | "第X点:xxx" |
> 引用 | "引用:xxx" |
**加粗** | 保留文字(去星号) |
`代码` | "代码:xxx" |
--- / *** | 跳过 |
[文字](url) | 读链接文字 |
分段策略
三级保护机制,防截断设计:
- 第一级:按句子边界拆分 — 文本按
。!?;拆成最小句子单元 - 第二级:累积到 chunk_size — 将句子组合成接近但不超过
chunk_size的大chunk - 第三级:超长句二次切分 — 如果单个句子本身就超过
chunk_size,按顿号 → 逗号 → 空格的顺序在子句间切分
chunk_size 建议值:
- 1200字 — 微软服务器稳定上限(推荐)
- 1000字 — 更保守,适合超长篇
- 1500字 — 接近边界,有轻微截断风险
注意事项
- edge-tts 有速率限制:超过 20–30 次/分钟会触发
ConnectionResetError - 批量任务:每文件之间等待 3 秒 + 每 TTS 请求之间等待 2 秒(默认),双重保护
- chunk_size 不要太大:超过 1500 字可能被服务器截断,建议 1000-1200
- FFmpeg 路径:默认自动查找
/tmp/ffmpeg_bin/ffmpeg等位置