china-video-gen

国内可用的AI视频生成技能。Create videos from text — generates script, images, voiceover, and merges into MP4. No time limit, full control. 视频生成、短视频制作。

Safety Notice

This listing is from the official public ClawHub registry. Review SKILL.md and referenced scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "china-video-gen" with this command: npx skills add tobewin/china-video-gen

国内 AI 视频生成 China Video Gen

将文字描述转化为完整视频:自动生成分镜脚本 → 图片序列 → 配音 → 合成 MP4。 无时长限制,完全可控,国内直连,无需翻墙。

触发时机

  • "帮我做一个30秒的[产品]宣传视频"
  • "生成一个介绍[主题]的短视频"
  • "做一个[品牌]的广告视频"
  • "把这段文字做成视频"
  • "生成适合小红书/抖音发布的视频"

Step 0:环境检查

每次执行前必须先检查依赖,缺失则提示用户手动安装。

检查 ffmpeg

检查 ffmpeg 是否已安装:
- macOS:   brew install ffmpeg
- Ubuntu:  sudo apt install ffmpeg
- Windows: 从 https://ffmpeg.org/download.html 下载

检查依赖 Skills

需要安装以下 skills:
- china-image-gen:文生图技能
- china-tts:文字转语音技能

安装方法:clawhub install china-image-gen

检查 API Key

需要配置 SILICONFLOW_API_KEY:
1. 访问 cloud.siliconflow.cn 注册
2. 进入「API密钥」页面创建 Key
3. export SILICONFLOW_API_KEY='sk-xxxxxxxx'

Step 1:理解用户需求

从用户描述中提取关键信息:

视频主题:产品宣传 / 知识科普 / 品牌故事 / 教程演示 / 其他
目标时长:15秒 / 30秒 / 60秒 / 更长(无限制)
画面风格:写实 / 插画 / 科技感 / 温暖 / 商务
音色选择:见 china-tts 音色列表
目标平台:小红书(1:1或3:4) / 抖音(9:16) / B站/YouTube(16:9) / 通用(16:9)
语言:中文 / 英文 / 中英混合

Step 2:生成分镜脚本

根据用户需求,设计分镜脚本。每个分镜包含:

分镜N:
  时长:X 秒
  画面描述(英文 prompt,用于 FLUX 文生图)
  解说词(中文,用于 TTS 配音)
  运镜效果:静止 / Ken Burns 缩放 / 平移
  转场效果:淡入淡出 / 擦除 / 无

时长分配原则

总时长 30秒,建议分镜数量:5-8个
  开场:2-3秒(Logo/主题/吸引眼球)
  主体:每个分镜3-5秒
  结尾:2-3秒(CTA/联系方式/品牌)

总时长 60秒,建议分镜数量:10-15个
  节奏:前10秒最关键,必须抓住注意力

字数与时长对照(TTS朗读速度约4字/秒):
  3秒 ≈ 12字
  5秒 ≈ 20字
  10秒 ≈ 40字

Step 3:生成图片序列

调用 china-image-gen skill,为每个分镜生成对应图片。

分辨率与比例

小红书(1:1):1024x1024
小红书(3:4):768x1024
抖音/竖版(9:16):720x1280
B站/横版(16:9):1280x720

图片生成

对每个分镜执行:

  1. 使用 china-image-gen 生成图片
  2. 保存到工作区 frames 目录
  3. 图片 URL 有效期1小时,必须立即下载

Step 4:生成配音音频

调用 china-tts skill,将所有解说词合并为一个音频文件。

  1. 合并所有分镜解说词
  2. 调用 TTS 生成 MP3
  3. 保存到工作区 audio 目录

Step 5:合成视频

使用 ffmpeg 将图片序列和音频合成为 MP4 视频。

方案A:简单合成(静止图片+音频)

  • 使用 ffmpeg concat 功能
  • 每张图片显示指定时长
  • 合并音频

方案B:Ken Burns 效果(推荐)

  • 为每张图片添加缓慢缩放效果
  • 模拟镜头推进
  • 更有质感

方案C:淡入淡出转场

  • 两张图片之间添加淡入淡出
  • 使用 xfade filter

Step 6:输出结果

视频生成完成
━━━━━━━━━━━━━━━━━━━━
视频文件:{工作区}/output.mp4
总时长:约 XX 秒
分镜数:X 张
画面比例:16:9(1280x720)

文件结构:
  video_xxx/
  ├── output.mp4          ← 最终视频
  ├── frames/             ← 各分镜图片
  ├── audio/
  │   └── voiceover.mp3  ← 配音文件
  └── concat.txt          ← 合成配置

视频类型预设

产品宣传(30秒,16:9)

分镜数:6个
图片模型:FLUX.1-dev(高质量)
音色:alex(沉稳男声)或 claire(温柔女声)
效果:Ken Burns
转场:淡入淡出

知识科普(60秒,16:9)

分镜数:12个
图片模型:FLUX.1-schnell(快速)
音色:anna(沉稳女声)
效果:静止图片
转场:无

小红书竖版(30秒,3:4)

分辨率:768x1024
分镜数:6个
图片模型:Kolors(中文理解最好)
音色:diana(欢快女声)
效果:Ken Burns

抖音竖版(15秒,9:16)

分辨率:720x1280
分镜数:4个(节奏快)
图片模型:FLUX.1-schnell
音色:bella(激情女声)
效果:Ken Burns

注意事项

  • 图片 URL 有效期仅1小时,生成后立即下载
  • Ken Burns 效果处理较慢,每张图约需10-30秒
  • 视频文件保存至 OpenClaw 工作区,长期保留
  • 建议先用 FLUX.1-schnell 快速预览,满意后换 FLUX.1-dev 出高质量版
  • 不要在短时间内大批量请求,避免触发 API 限速

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

General

Download Tool

支持下载 YouTube、TikTok、小红书、抖音等平台的视频。

Registry Source
2090Profile unavailable
General

Arch Video Cut

自动合并建筑视频,生成字幕和背景音乐,输出横屏与竖屏双版本,支持自学习优化剪辑偏好。

Registry SourceRecently Updated
3000Profile unavailable
General

短视频一键生成器

短视频一键生成器 v3.0。输入主题+要点,AI自动完成分镜、生图、配音、字幕、渲染,输出1080×1920竖屏MP4。

Registry SourceRecently Updated
620Profile unavailable
General

短视频脚本生成器

短视频口播脚本生成器。输入产品/话题,自动生成5分钟以内抖音/视频号口播脚本,包含开场钩子、叙事结构、话术技巧、BGM推荐和互动引导。适用场景:AI科普/印刷知识/产品介绍/行业干货。触发词:生成脚本/口播脚本/短视频文案/抖音脚本

Registry Source
1730Profile unavailable