xAI 的 Grok Imagine Video 可以通过 API 生成视频,但官方没有提供特别方便的本地工具。我找到了一个开源项目,把 Grok 的视频 API 封装成了一套本地 CLI 工作流,在 Codex 里可以直接调用。
跑通之后的使用方式很简单:对 Codex 说"帮我用 Grok 生成视频,提示词是:xxx",等一两分钟,视频就生成好了。
这个工作流能做什么
项目把 Grok Imagine Video 的 API 包装成了命令行工具,主要功能:
- 文生视频(text-to-video)
- 图生视频(reference-to-video),支持本地图片或图片 URL,最多 7 张参考图
- 异步轮询,自动下载生成的视频
- 输出 metadata JSON 和费用估算
- 生成联系表(contact sheet)方便快速预览视频帧
支持的参数包括时长(1-15 秒,图生视频最多 10 秒)、比例(16:9、9:16、1:1 等)、分辨率(480p 或 720p)。
怎么用
安装:
git clone https://github.com/Rion-Wu-tech/grok-video-workflow.git cd grok-video-workflow npm install cp .env.example .env
在 .env 里填上 xAI API Key。注意用的是 xAI API 的额度,不是 Grok 网页端的配额。
文生视频
npm run video -- --prompt "A cinematic AI creator editing videos at midnight, vertical social media style" --duration 5 --aspect-ratio 9:16 --resolution 480p
图生视频
把参考图放到 examples/ 目录下,然后:
npm run video -- --prompt-file prompts/worldcup-fancam.example.txt --reference-image examples/your-storyboard.png --duration 10 --aspect-ratio 1:1 --resolution 720p --prefix worldcup-fancam
生成完成后会输出 request_id、状态、视频链接,视频默认保存在 outputs/ 目录。
检查生成结果
生成完可以跑一个联系表命令,把视频帧拼成一张图快速预览:
npm run review -- --video outputs/your-video.mp4
主要看几个地方:动作是否连贯、人物身份有没有跳变、手和手指是否正常、文字内容是否稳定、有没有意外的场景切换。
费用
xAI 的公开定价大概是:
| 分辨率 | 价格 |
|---|---|
| 480p | $0.05/秒 |
| 720p | $0.07/秒 |
5 秒 480p 大概 $0.25,10 秒 720p 大概 $0.70。批量跑之前建议先测试几条。
在 Codex 里怎么用
直接用自然语言跟 Codex 说就行:
"Use this repo to generate a 5 second 9:16 Grok video. First compress my prompt under 4096 characters, then run the CLI and review the contact sheet."
"Generate a reference-to-video clip from examples/storyboard.png, duration 10 seconds, 720p, then create a contact sheet and tell me whether it needs a rerun."
Codex 会帮你压缩 prompt、跑命令、检查结果,整个流程不需要手动操作。
几个限制
- Prompt 最长 4096 字符
- 图生视频最长 10 秒
- 生成的视频可能有文字、手指、人物身份不稳定的情况,发布前要检查
- 不要把 AI 生成的活动画面当真实素材用