国内 AI 视频生成 China Video Gen
将文字描述转化为完整视频:自动生成分镜脚本 → 图片序列 → 配音 → 合成 MP4。 无时长限制,完全可控,国内直连,无需翻墙。
触发时机
- "帮我做一个30秒的[产品]宣传视频"
- "生成一个介绍[主题]的短视频"
- "做一个[品牌]的广告视频"
- "把这段文字做成视频"
- "生成适合小红书/抖音发布的视频"
Step 0:环境检查
每次执行前必须先检查依赖,缺失则提示用户手动安装。
检查 ffmpeg
检查 ffmpeg 是否已安装:
- macOS: brew install ffmpeg
- Ubuntu: sudo apt install ffmpeg
- Windows: 从 https://ffmpeg.org/download.html 下载
检查依赖 Skills
需要安装以下 skills:
- china-image-gen:文生图技能
- china-tts:文字转语音技能
安装方法:clawhub install china-image-gen
检查 API Key
需要配置 SILICONFLOW_API_KEY:
1. 访问 cloud.siliconflow.cn 注册
2. 进入「API密钥」页面创建 Key
3. export SILICONFLOW_API_KEY='sk-xxxxxxxx'
Step 1:理解用户需求
从用户描述中提取关键信息:
视频主题:产品宣传 / 知识科普 / 品牌故事 / 教程演示 / 其他
目标时长:15秒 / 30秒 / 60秒 / 更长(无限制)
画面风格:写实 / 插画 / 科技感 / 温暖 / 商务
音色选择:见 china-tts 音色列表
目标平台:小红书(1:1或3:4) / 抖音(9:16) / B站/YouTube(16:9) / 通用(16:9)
语言:中文 / 英文 / 中英混合
Step 2:生成分镜脚本
根据用户需求,设计分镜脚本。每个分镜包含:
分镜N:
时长:X 秒
画面描述(英文 prompt,用于 FLUX 文生图)
解说词(中文,用于 TTS 配音)
运镜效果:静止 / Ken Burns 缩放 / 平移
转场效果:淡入淡出 / 擦除 / 无
时长分配原则
总时长 30秒,建议分镜数量:5-8个
开场:2-3秒(Logo/主题/吸引眼球)
主体:每个分镜3-5秒
结尾:2-3秒(CTA/联系方式/品牌)
总时长 60秒,建议分镜数量:10-15个
节奏:前10秒最关键,必须抓住注意力
字数与时长对照(TTS朗读速度约4字/秒):
3秒 ≈ 12字
5秒 ≈ 20字
10秒 ≈ 40字
Step 3:生成图片序列
调用 china-image-gen skill,为每个分镜生成对应图片。
分辨率与比例
小红书(1:1):1024x1024
小红书(3:4):768x1024
抖音/竖版(9:16):720x1280
B站/横版(16:9):1280x720
图片生成
对每个分镜执行:
- 使用 china-image-gen 生成图片
- 保存到工作区 frames 目录
- 图片 URL 有效期1小时,必须立即下载
Step 4:生成配音音频
调用 china-tts skill,将所有解说词合并为一个音频文件。
- 合并所有分镜解说词
- 调用 TTS 生成 MP3
- 保存到工作区 audio 目录
Step 5:合成视频
使用 ffmpeg 将图片序列和音频合成为 MP4 视频。
方案A:简单合成(静止图片+音频)
- 使用 ffmpeg concat 功能
- 每张图片显示指定时长
- 合并音频
方案B:Ken Burns 效果(推荐)
- 为每张图片添加缓慢缩放效果
- 模拟镜头推进
- 更有质感
方案C:淡入淡出转场
- 两张图片之间添加淡入淡出
- 使用 xfade filter
Step 6:输出结果
视频生成完成
━━━━━━━━━━━━━━━━━━━━
视频文件:{工作区}/output.mp4
总时长:约 XX 秒
分镜数:X 张
画面比例:16:9(1280x720)
文件结构:
video_xxx/
├── output.mp4 ← 最终视频
├── frames/ ← 各分镜图片
├── audio/
│ └── voiceover.mp3 ← 配音文件
└── concat.txt ← 合成配置
视频类型预设
产品宣传(30秒,16:9)
分镜数:6个
图片模型:FLUX.1-dev(高质量)
音色:alex(沉稳男声)或 claire(温柔女声)
效果:Ken Burns
转场:淡入淡出
知识科普(60秒,16:9)
分镜数:12个
图片模型:FLUX.1-schnell(快速)
音色:anna(沉稳女声)
效果:静止图片
转场:无
小红书竖版(30秒,3:4)
分辨率:768x1024
分镜数:6个
图片模型:Kolors(中文理解最好)
音色:diana(欢快女声)
效果:Ken Burns
抖音竖版(15秒,9:16)
分辨率:720x1280
分镜数:4个(节奏快)
图片模型:FLUX.1-schnell
音色:bella(激情女声)
效果:Ken Burns
注意事项
- 图片 URL 有效期仅1小时,生成后立即下载
- Ken Burns 效果处理较慢,每张图约需10-30秒
- 视频文件保存至 OpenClaw 工作区,长期保留
- 建议先用 FLUX.1-schnell 快速预览,满意后换 FLUX.1-dev 出高质量版
- 不要在短时间内大批量请求,避免触发 API 限速