multimodal-gen

多模态内容生成(图片、视频)。当用户需要生成图片、生成图像、生成视频、AI绘画、AI作图、画一张图、做个视频、文生图、文生视频时使用此技能。自动调用 multimodal-agent 进行生成。

Safety Notice

This listing is imported from skills.sh public index metadata. Review upstream SKILL.md and repository scripts before running.

Copy this and send it to your AI assistant to learn

Install skill "multimodal-gen" with this command: npx skills add aaaaqwq/claude-code-skills/aaaaqwq-claude-code-skills-multimodal-gen

多模态内容生成

当用户需要生成图片或视频时,自动调用 multimodal-agent 进行处理。

触发场景

图片生成

  • "生成一张图片"
  • "画一张..."
  • "AI 作图"
  • "文生图"
  • "帮我生成图像"
  • "用 flux/imagen/dalle 生成"

视频生成

  • "生成一个视频"
  • "做个视频"
  • "文生视频"
  • "用 veo/sora/kling 生成视频"

使用方式

自动调用 multimodal-agent

sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: {用户描述}, 使用 {模型} 模型"
)

可用模型

图片生成

别名模型特点
fluxflux-pro-max高质量,推荐
imagengoogle/imagen-4-ultraGoogle 最强
dallegpt-image-1DALL-E 3
doubaodoubao-seedream-4-5中式美学
klingimgkling-image可灵生图

视频生成

别名模型特点
veoproveo3.1-proGoogle 专业版
veo4kveo3.1-pro-4k4K 高清
sorasora-2-pro-allOpenAI Sora
klingkling-video可灵视频

执行流程

用户请求 "生成一张猫咪图片"
    │
    ▼
┌─────────────────────────────────────┐
│ 1. 识别为图片生成请求              │
│ 2. 提取描述: "猫咪"                │
│ 3. 选择默认模型: flux-pro-max      │
└─────────────────────────────────────┘
    │
    ▼
┌─────────────────────────────────────┐
│ sessions_spawn(                     │
│   agentId="multimodal-agent",       │
│   task="生成图片: 一只可爱的猫咪,   │
│         使用 flux 模型"             │
│ )                                   │
└─────────────────────────────────────┘
    │
    ▼
multimodal-agent 执行生成并返回结果

示例

生成图片

用户: 帮我生成一张日落海滩的图片

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 日落时分的海滩,金色阳光洒在海面上,使用 flux 模型"
)

生成视频

用户: 用 sora 生成一个猫咪玩耍的视频

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成视频: 一只可爱的猫咪在草地上玩耍,使用 sora 模型"
)

指定模型

用户: 用 doubao 画一张中国风山水画

执行:
sessions_spawn(
    agentId="multimodal-agent",
    task="生成图片: 中国风山水画,云雾缭绕的山峰,使用 doubao 模型"
)

模型选择建议

场景推荐模型
通用高质量flux
中式风格doubao
写实照片imagen
创意艺术dalle
高清视频veo4k
电影级视频sora
快速视频kling

注意事项

  1. 提示词优化: multimodal-agent 会自动优化用户的描述
  2. 模型选择: 如果用户没指定,默认使用 flux (图片) 或 veopro (视频)
  3. 异步执行: 视频生成可能需要较长时间,会在后台执行
  4. 结果返回: 生成完成后会自动发送结果给用户

Source Transparency

This detail page is rendered from real SKILL.md content. Trust labels are metadata-based hints, not a safety guarantee.

Related Skills

Related by shared tags or category signals.

Coding

multi-search-engine

No summary provided by upstream source.

Repository SourceNeeds Review
Coding

feishu-automation

No summary provided by upstream source.

Repository SourceNeeds Review
Coding

web-scraping-automation

No summary provided by upstream source.

Repository SourceNeeds Review
Coding

memory-hygiene

No summary provided by upstream source.

Repository SourceNeeds Review