Claude Code 技能实战:SKILL.md 视频制作自动化教程

2026/02/11

AI 视频制作涉及数十个重复步骤:编写脚本、生成图片、创建视频片段、合成音频、添加元数据、上传到平台。每个步骤都有自己的工具、API 和配置。AI 代理技能将这些步骤转化为可执行、可重复的指令,让编码代理只需一个命令就能代替你完成全部工作。

本指南介绍代理技能的概念、工作原理,以及如何使用 Claude Code 搭建自动化视频流水线。

什么是 AI 代理技能?

AI 代理技能是一种机器可读的指令文件(通常命名为 SKILL.md),它告诉 AI 编码代理如何执行特定任务。你可以把它理解为一份配方:它声明所需的输入、要遵循的步骤、要调用的工具以及预期的输出。代理读取该文件,解析指令,然后自主完成工作。

相关阅读:浏览技能目录,试用免费提示词生成器,或阅读完整 AI 视频流水线指南

技能文件和传统脚本或 Shell 命令有本质区别。Shell 脚本执行固定的操作序列,而技能文件由 AI 代理解释执行 - - 代理能够自适应、处理边缘情况、在你定义的边界内做出决策,并将 API 调用、文件操作和 CLI 命令串联起来,无需你编写胶水代码。代理本身就是运行时。

SKILL.md 格式起源于 Claude Code - - Anthropic 的 AI 编码代理。Anthropic 于 2026 年 1 月发布了 Claude 技能构建完整指南,定义了开放的 SKILL.md 标准。由于技能是带有简单 frontmatter 模式的纯 Markdown 文件,任何能读取 Markdown 的代理都可以采用该格式。你只需编写一次技能,就能在任何安装了兼容代理的环境中运行。

代理技能的工作原理

代理技能的执行流程遵循一个可预测的模式:

  1. 用户触发技能。 你通过斜杠命令(如 Claude Code 中的 /seedance-video-generator)按名称调用技能。代理加载技能并准备执行。

  2. 代理读取 SKILL.md 文件。 代理在配置的技能目录中定位技能文件,解析前置元数据,并读取指令正文。

  3. 代理规划执行。 根据指令内容,代理确定需要哪些工具(API 调用、文件读写、CLI 命令、浏览器操作)以及执行顺序。如果缺少必要输入,代理会提示你补充。

  4. 代理执行步骤。 代理逐步完成工作:调用 API、将文件写入磁盘、运行 Shell 命令、处理数据,并按技能文件中的规定处理错误。

  5. 代理返回结果。 所有步骤完成后,代理呈现输出结果(生成的视频文件、元数据 JSON、一组缩略图),并报告执行过程中遇到的问题。

关键优势在于可组合性。你可以将技能串联起来,让一个技能的输出成为下一个技能的输入。脚本转分镜技能生成镜头列表,镜头列表传入视频生成技能,生成的片段传入剪辑技能,剪辑完成的视频传入元数据和上传技能。每个技能都是独立的单元,代理负责编排整个链条。

可用的视频制作技能

以下技能覆盖了 AI 视频制作流水线的核心阶段。你可以单独使用它们,也可以串联使用实现端到端自动化。

技能名称描述输入输出复杂度
seedance-video-generator使用 Seedance 2.0 API 从文本或图片提示词生成视频片段提示词文本或图片路径、宽高比、时长MP4 视频文件、生成元数据中等
youtube-metadata-generator为 YouTube 上传创建优化的标题、描述、标签和缩略图视频文件或主题摘要、目标关键词JSON 元数据文件、缩略图图片
canvas-design使用 AI 图像生成创建品牌化缩略图、社交卡片和视觉素材品牌配置、文字叠加层、模板选择品牌风格一致的 PNG/JPG 图片中等
script-to-storyboard将书面脚本转换为包含视觉描述的结构化镜头列表脚本文本(纯文本或 MDX)JSON 镜头列表,含场景描述、机位角度、时长中等
audio-narration-generator使用文本转语音 API 从脚本文本生成配音旁白脚本文本、语音选择、节奏配置MP3/WAV 音频文件、SRT 字幕文件中等
video-review-checklist对成品视频在发布前运行自动化质量检查视频文件路径质量报告(分辨率、音频电平、时长、格式验证)
social-content将长视频重新裁剪为适合 Shorts、Reels 和 TikTok 的平台优化短片,含字幕和标签源视频文件、目标平台、品牌语调配置每个平台对应的裁剪片段及元数据
seo-optimizer为视频页面生成 SEO 优化的标题、描述、Schema 标记和关键词策略视频主题、目标关键词、竞品 URL含结构化数据和内链建议的 Markdown 内容中等

每个技能都是独立的 SKILL.md 文件。你可以只安装需要的技能,并随着工作流的演进逐步添加更多技能。

使用 Claude Code 开始

Claude Code 是 Anthropic 推出的 CLI 工具,用于在终端中运行 AI 代理。以下是设置视频制作技能的步骤。

第一步:安装 Claude Code。

如果你还没有安装 Claude Code,可以通过 npm 全局安装:

npm install -g @anthropic-ai/claude-code

在终端中运行 claude --version 验证安装是否成功。

第二步:创建技能目录。

Claude Code 在项目或主目录的 .claude/skills/ 目录中查找技能文件。如果该目录不存在,请创建:

mkdir -p .claude/skills

第三步:添加 SKILL.md 文件。

将每个技能文件放入技能目录。例如,添加视频生成技能:

.claude/skills/
  seedance-video-generator/
    SKILL.md
  youtube-metadata-generator/
    SKILL.md
  script-to-storyboard/
    SKILL.md

每个子目录包含一个 SKILL.md 文件,内含该技能的完整指令。

第四步:配置环境变量。

大多数视频制作技能需要 API 密钥。在 Shell 配置文件或 .env 文件中设置:

export SEEDANCE_API_KEY="your-seedance-api-key"
export ELEVENLABS_API_KEY="your-elevenlabs-api-key"
export YOUTUBE_API_KEY="your-youtube-api-key"

第五步:调用技能。

启动 Claude Code 并按名称触发技能:

claude
> /seedance-video-generator

Claude Code 读取 SKILL.md,询问所需输入(提示词文本、宽高比),然后执行流水线。生成的视频保存到配置的输出目录。

构建多步骤流水线

Claude Code 技能的真正威力在于将它们串联成多步骤流水线。你无需逐一调用技能,而是可以创建一个编排技能,用单一命令运行整个视频制作工作流。

aivp-pipeline 技能展示了这种方法。它是一个主编排技能,将 AI 视频制作的 9 个阶段串联起来:

脚本 → 分镜 → 图片 → 视频 → 剪辑 → 音频 → 元数据 → 发布 → 审核

流水线串联的工作方式:

  1. 创建一个顶层技能(如 aivp-pipeline/SKILL.md),在指令正文中描述完整工作流。
  2. 在每个步骤中按名称引用子技能。Claude Code 从技能目录中解析它们。
  3. 编排技能将一个阶段的输出作为下一个阶段的输入传递,处理中间文件和错误恢复。

调用示例:

claude
> /aivp-pipeline topic="3 个提升 AI 提示词质量的技巧" platform="youtube-shorts" style="fast-paced"

代理执行完整链条:生成脚本、创建分镜、制作视频片段、添加配音和音乐、生成元数据,并准备最终输出供审核。你在发布前确认输出。

创建你自己的流水线技能:

编写一个 SKILL.md,用纯 Markdown 描述你的工作流步骤。引用子技能、定义阶段间的数据流、为每个步骤指定错误处理。Claude Code 解析指令并编排执行。

创建自定义技能

每个 SKILL.md 文件遵循一致的格式,包含前置元数据和指令正文。以下是具体结构。

前置元数据:

---
name: my-custom-skill
description: 简要说明此技能的功能
---

前置元数据支持额外的可选字段,如 argument-hint(参数自动补全提示)、allowed-tools(限制代理可使用的工具)和 user-invocable(技能是否显示在 / 斜杠命令菜单中)。完整规格请参见 Anthropic 的 Claude 技能构建完整指南

指令正文:

在前置元数据之后,用纯 Markdown 编写执行步骤。代理会按顺序解析这些指令并执行。在正文中定义你的输入、输出和执行逻辑:

## 输入

- `prompt`(字符串,必填):视频生成的文本提示词。至少 10 个字符。
- `aspect_ratio`(字符串,可选,默认 "16:9"):输出宽高比。

## 输出

- `video_file`(文件):生成的 MP4 视频,保存到 `./output/`
- `metadata`(JSON):生成元数据,包含任务 ID、时长和分辨率。

## 执行步骤

1. 验证 `prompt` 输入至少包含 10 个字符。如果不足,请用户提供更详细的提示词。

2. 调用 Seedance 2.0 API 文生视频端点:
   - 端点:`POST https://api.seedance.ai/v1/generations`
   - 在请求体中包含 prompt、aspect_ratio 和 duration(默认 4 秒)。
   - 使用 SEEDANCE_API_KEY 环境变量进行身份验证。

3. 每 5 秒轮询一次任务状态端点,直到状态为 "completed" 或 "failed"。

4. 如果生成成功,从 `video_url` 字段下载视频并保存到 `./output/{timestamp}-generated.mp4`

5. 向用户返回文件路径和生成元数据(任务 ID、时长、分辨率)。

## 错误处理

- 如果 API 返回 429 限速错误,等待 30 秒后重试,最多重试 3 次。
- 如果生成失败,报告错误信息并建议用户简化提示词。

## 参考资料

- [Seedance 2.0 API 文档](/blog/seedance-2-0-api)
- [提示词编写指南](/blog/seedance-prompt-guide)

核心原则是清晰。编写指令时,要像向一位能力强但从未接触过你代码库的开发者解释任务一样。明确写出 API 端点、文件路径、错误处理规则和预期输出。

实际自动化案例

独立创作者:每日 YouTube Shorts 自动化

一位独立创作者每天制作一条 YouTube Short。流水线涉及编写脚本、生成视频片段、添加配音、创建缩略图和上传优化后的元数据。

没有技能自动化时,每个视频需要 2-3 小时的手动工作。使用技能链后,创作者只需运行一条命令:

claude
> 运行我的 daily-short 流水线,今天的主题是:"3 个提升 AI 提示词质量的技巧"

代理执行技能链:script-to-storyboard 生成镜头列表,seedance-video-generator 创建视频片段,audio-narration-generator 添加配音,youtube-metadata-generator 生成标题和标签,创作者在最终上传前审核输出。实际操作时间缩短到约 15 分钟的审核和确认。

代理机构:为客户批量制作视频

一家视频营销机构每周为多个客户制作 20-30 条短视频。每个客户都有品牌规范、偏好风格和目标平台。

机构为每个客户创建专属技能配置,包含品牌色、Logo 叠加层、语调设置和平台目标。项目经理触发批量生成:

claude
> 使用 clients/acme-corp.json 配置运行 batch-pipeline,生成 5 个视频

代理按照 ACME Corp 的品牌规范生成五个视频,创建不同平台的裁剪版本(16:9 用于 YouTube,9:16 用于 Shorts 和 Reels),并为每个平台生成元数据。团队审核输出,确认后交付客户。

开发者:API 驱动的流水线与 Webhook 触发

一位开发者将视频生成集成到 SaaS 产品中。当用户通过 Web 应用提交提示词时,Webhook 触发视频流水线。

开发者编写一个技能,监听传入的 Webhook 请求、验证数据、通过 Seedance API 生成视频、将结果上传到云存储,并向用户发送通知。技能作为代理管理的后台任务运行,错误处理和重试逻辑在 SKILL.md 文件中定义。

Webhook 接收 → 验证请求 → 生成视频 → 上传到 S3 → 通知用户

这种方式将流水线逻辑保存在可读、可维护的技能文件中,而不是埋藏在应用代码里。

局限性与最佳实践

代理无法做到的事情

AI 代理是强大的执行者,但在视频制作场景中存在真实的局限:

  • 主观创意判断。 代理可以根据提示词生成视频,但无法判断结果在审美上是否优秀。创意质量仍然需要人工审核。
  • 实时监控。 代理执行任务并返回结果,不会实时观察渲染过程。长时间运行的任务依赖轮询或回调机制。
  • 复杂剪辑决策。 将 10 分钟的视频剪辑为 60 秒的精华片段需要编辑判断力,代理无法可靠地提供。使用代理处理机械性剪辑任务(裁剪、缩放、格式转换),而非创意性剪辑。
  • 平台特定细节。 每个社交媒体平台对内容、格式和元数据都有不断变化的规则。代理按照技能文件中的指令执行,因此你需要随着平台变化更新技能。

最佳实践

  1. 版本控制你的技能。 将 SKILL.md 文件纳入版本控制。当你更新 API 端点或修改工作流步骤时,变更可追踪且可回滚。

  2. 增量测试。 在串联技能之前,先单独运行每个技能。验证相连技能之间的输入和输出是否匹配。

  3. 保持技能专注。 单个技能应该做好一件事。三个专注的技能串联优于一个试图处理整个流水线的臃肿技能。

  4. 定义清晰的错误处理。 明确说明 API 调用失败、文件缺失或输入无效时应该怎么做。代理会严格按照你的错误处理指令执行。

  5. 使用环境变量管理密钥。 永远不要在 SKILL.md 文件中硬编码 API 密钥。引用环境变量并记录每个技能需要哪些密钥。

  6. 记录你的输入和输出。 Markdown 正文中的清晰指令让技能具有自文档性。其他团队成员(或未来的你)应该通过阅读文件就能理解技能的功能。

  7. 发布前审核代理输出。 自动化生成和准备工作,但在最终发布步骤保留人工审核。这能发现质量问题并防止意外上传。

常见问题

SKILL.md 文件是什么?

SKILL.md 文件是一个 Markdown 文档,包含 AI 编码代理可读的指令。它使用简单的前置元数据(namedescription 字段),后跟 Markdown 正文来定义输入、输出和逐步执行指令。代理读取该文件并执行其中描述的工作。

我需要编程经验吗?

具备命令行和环境变量的基本知识会有帮助,但你不需要成为程序员。SKILL.md 文件用纯 Markdown 编写,指令清晰明了。如果你能看懂一份食谱,就能编写和使用技能。对于更高级的定制(自定义 API 集成、Webhook 处理),一些开发经验会比较有用。

哪些 AI 代理支持 SKILL.md?

Claude Code(Anthropic 出品)是原生支持 SKILL.md 的主要代理。该格式是基于纯 Markdown 的开放标准,任何能读取 Markdown 文件的 AI 编码代理都可以采用。Anthropic 于 2026 年 1 月在其 Claude 技能构建完整指南 中发布了完整规格。

代理可以调用外部 API 吗?

可以。代理可以向你配置的任何 API 发送 HTTP 请求,包括 Seedance、ElevenLabs、YouTube Data API、云存储服务等。你在 SKILL.md 文件中指定 API 端点和认证方式,代理负责处理请求。

如何调试失败的技能?

首先检查代理的输出日志中的错误信息。常见问题包括缺少环境变量(API 密钥未设置)、API 端点不正确以及输入数据格式错误。将失败的步骤单独运行以缩小问题范围。大多数代理支持详细日志模式,会显示每个步骤的执行过程。

使用代理技能需要付费吗?

Claude Code 需要 Anthropic API 订阅(有免费层级,使用量有限)。技能文件本身只是指令文件,不需要费用。但技能调用的底层服务(Seedance API、ElevenLabs、YouTube API)有各自的定价。总费用取决于你的技能调用了哪些 API 以及调用频率。

我可以和别人共享技能吗?

可以。技能是纯 Markdown 文件,你可以通过 Git 仓库、npm 包或任何文件共享方式分享。GitHub 上有许多社区贡献的技能可用。共享的技能应该记录所需的环境变量和 API 依赖,以便其他人正确配置。

相关文章

继续构建你的 AI 视频制作流水线,参考以下资源:

收藏 AIVidPipeline 获取最新的 AI 视频制作工具、代理技能和自动化工作流资讯。

AIVidPipeline

编辑团队

AIVidPipeline 专注发布 AI 视频、图片和音乐创作相关的教程、模型对比与工作流指南。我们的编辑流程会跟踪产品更新,核验能力与定价信息,再整理成可执行的实用建议。

探索 AI 视频工具

并排对比最新的 AI 视频、图片和音乐生成器。