Seedance 2.0 真人参考图生视频指南

**Seedance 2.0 能不能拿真人照片当参考图来生成视频？**答案是能，但真正决定效果的不是一句“支持”，而是你到底有没有把 参考图、提示词、时长、镜头动作、合规边界 配对好。

我这次把公开信息和市场页面都过了一遍，结论很清楚：

ByteDance 官方已经明确把 Seedance 2.0 定义成支持 text、image、audio、video 输入 的多模态视频模型
市场上已经有不少 Seedance 2.0 产品层，开始围绕 参考图、人像一致性、角色稳定性 做具体交互
在我们的产品里，这个能力已经能通过 /image-to-video 直接落地成可操作的工作流

所以今天这篇文章不讨论空泛概念，只回答一个更实际的问题：如果你想用真人参考图做 Seedance 2.0 图生视频，怎样才能更稳、更像、更可控？

如果你准备继续深挖，建议顺手看这两篇配套文章：

一句话结论

模型层面：Seedance 2.0 明确支持图片参考输入
产品层面：不同平台对真人脸、肖像、审核规则差异很大
落地层面：最稳的路线不是“随便上传一张自拍”，而是“建立一个小型人物参考包”
结果层面：真人图生视频最怕的不是不会动，而是 脸漂、皮肤蜡化、表情跳变、手部崩坏

什么叫 Seedance 2.0 真人参考图生视频？

所谓 Seedance 2.0 真人参考图生视频，就是把一张或多张真实人物照片作为视觉锚点，让模型在生成视频时尽量保持这个人的脸部结构、气质、发型、服装或身体姿态，同时再叠加动作、镜头运动和场景变化。

Seedance 2.0 官方到底支不支持参考图？

从官方材料看，答案是支持。

ByteDance Seed 官方页面写得很明确：Seedance 2.0 采用统一的多模态音视频联合生成架构，支持 text、image、audio、video 输入，并强调了 reference 与 editing 能力。

但这里要分清两件事：

模型有这个能力
某个平台愿不愿意把这个能力开放给真人肖像输入

这两者不是一回事。

我全网搜下来，市场上是什么情况？

我看了几类页面，信息基本能互相印证。

来源	能确认什么	价值
ByteDance 官方 Seedance 2.0 页面	官方确认多模态输入和 reference 能力	这是最核心的能力依据
我们自己的 Image-to-Video 页面	已经把参考图、参考视频、参考音频、首尾帧工作流做成真实产品入口	这是用户可以直接使用的落地能力
seedance2.ai	公开页面明确展示 image-to-video、多参考输入以及真人相关控制项	说明市场已经在围绕真人参考图做具体产品交互
yino.ai	直接把“真人脸支持”当成卖点	说明“Seedance 2.0 + 真人人像”已经是明确需求场景
GitHub 上的 Seedance 2.0 API 封装	开发者生态已经围绕 image-to-video、omni-reference、character workflow 做封装	说明参考型工作流不是边缘玩法，而是主流方向

换句话说，现在的问题已经不是“能不能参考图生成视频”，而是“哪一层支持得更完整、哪一套工作流更稳”。

为什么真人参考图比普通图片更难？

真人图像难，不是因为模型不会动，而是因为人脸是最容易被察觉出错误的内容类型。

1. 人脸容错极低

产品图稍微变形，用户未必在意；但真人脸只要眼距、鼻梁、嘴型、下颌线有一点漂移，马上就会觉得“不像本人”。

2. 既要保身份，又要加动作

真人图生视频不只是“保住静态外观”，还要在转头、眨眼、肩膀移动、镜头推拉、头发飘动时继续保住身份。

3. 审核会更严格

真人照片天然涉及同意、肖像权、仿冒、虚假代言、名人脸等问题。很多平台在 UI 层面会对这类输入做额外过滤。

4. 用户往往写了太重的动作提示

一张单人肖像图，最怕你同时要求它“快速转身、微笑、抬手、甩头发、镜头绕拍、灯光切换”。动作一多，脸最先崩。

最稳的真人参考图组合是什么？

如果你想让视频里的真人更像原图，不要只想着“传一张自拍”。更稳的方式是建立一个 小型人物参考包。

建议至少准备这三类图：

正面清晰头像
三分之四侧脸角度图
半身或腰部以上构图图

Seedance 2.0 真人参考图生视频的正面人像示例 — 正面人像：最适合锁定五官比例、眼距、表情稳定性。

Seedance 2.0 真人参考图生视频的三分之四角度人像示例 — 三分之四角度：有助于模型在转头时保持脸部立体结构。

Seedance 2.0 真人图生视频的半身参考图示例 — 半身图：补足肩线、姿态、服装和身体信息。

好参考图的标准

短边尽量 1024px 以上
眼睛清晰
脸部无遮挡
光线均匀
背景不要太乱
尽量只有一个主体

差参考图的典型特征

强美颜滤镜
低清截图
过曝或死黑阴影
人脸只露一半
大面积遮挡
高压缩噪点

在我们平台上，最推荐的操作路径

如果你现在就要做，直接从 /image-to-video 开始。

我们现在这条工作流已经把 Seedance 2.0 最关键的参考能力做成了可操作入口，包括：

参考图片
参考视频
参考音频
first frame / last frame

真正建议的顺序是下面这样。

第 1 步：先用图生视频，不要直接文生视频

如果目标是“尽量保住这个真人的脸”，那图生视频天然比文生视频更适合作为起点。

第 2 步：先上传一张最强主参考图

不要一上来就堆很多图。先拿最清晰、最稳定的一张作为 identity anchor。

第 3 步：提示词写动作，不要重写外貌

很多人会把提示词写成这样：

一个皮肤细腻、五官精致、非常真实的年轻女性，真实人脸，超写实，漂亮眼睛，真实嘴唇。

这类提示词对“保住真人身份”帮助很有限，反而容易把模型往泛化美人脸推。

更好的写法是：

Use @image1 as the identity anchor. The subject slowly turns toward camera, blinks naturally, gives a slight smile, and lifts one shoulder subtly. Soft daylight, gentle push-in camera, realistic skin texture, no sudden zoom.

核心思路是：身份交给参考图，动作交给提示词。

第 4 步：第一轮一定要短

先测 4 到 5 秒，低分辨率也没关系。第一轮是查：

脸有没有漂
表情有没有跳
头发和边缘有没有闪
镜头是不是太猛

只有第一轮稳定了，再去拉长时长、提高分辨率。

第 5 步：需要时再加第二、第三张参考图

第二张图解决角度稳定
第三张图解决服装和半身姿态稳定
参考视频只在你确实需要复制动作或镜头运动时再加

真人图生视频最好用的提示词模板

模板 1：口播头像

Use @image1 as the identity anchor. The subject speaks calmly to camera with subtle lip movement, natural blinking, a slight head tilt, and soft studio lighting. Keep facial proportions stable and avoid exaggerated expressions.

模板 2：时尚人像

Use @image1 as the first frame and identity anchor. The subject turns slowly from three-quarter view toward camera, hair moves gently, the camera drifts right in a smooth cinematic arc, premium editorial lighting, consistent face and outfit.

模板 3：竖屏社媒短视频

Use @image1 as the portrait reference. Create a 9:16 handheld-style selfie shot with subtle forward motion, natural eye contact, gentle smile, soft daylight, and realistic skin detail. Keep the face stable across the whole clip.

模板 4：教程或展示型视频

Use @image1 for identity and @image2 for body framing. The subject demonstrates one simple movement step with clear posture, minimal camera shake, clean indoor lighting, and stable facial detail. No fast action, no morphing hands.

一张图和多参考图，差别到底在哪？

方案	适合什么	优点	缺点
单张正面图	微表情、轻动作、口播	最简单、成本最低	转头和身体一致性较弱
正面图 + 三分之四图	人像转头、轻镜头移动	脸部结构更稳	身体信息还是不够
正面图 + 三分之四图 + 半身图	广告、创作者短片、时尚内容	综合稳定性最好	对参考图质量要求更高
人像图 + 参考视频	需要复制动作或镜头语言	动作控制更强	也是最容易过约束、最容易漂的一种

最常见的翻车点和修法

问题	常见原因	最有效修法
脸越来越不像	动作太复杂、主参考图太弱	缩短时长、降低动作强度、换更强正面图
皮肤像蜡	原图滤镜太重或提示词过度强调“完美皮肤”	用更自然的原图，少写“超精致超写实”
头发边缘闪烁	背景太乱或边缘不干净	换背景更干净的图，减少风和快速转头
手部崩坏	半身动作太多	改成胸像或腰部以上，动作只留一个
镜头乱飞	提示词里镜头动作写太多	一次只保留一个镜头指令
表情突然跳变	同时要求多个情绪	一段视频只保留一个明确情绪状态

现在全网的信息，说明了什么？

我看完官方页、产品页、开发者封装和行业教程后，最有价值的结论其实是这个：

Seedance 2.0 已经不是“会不会参考图”的阶段，而是进入了“谁的参考工作流更成熟”的阶段。

也就是说，真正能形成 SEO 优势和产品优势的，不再只是说“我们支持 Seedance 2.0”。而是要说清楚：

支持哪类参考
真人图能不能用
用几张图更稳
哪些动作最容易翻车
平台边界和审核规则是什么

这才是用户会搜、也会转化的内容。

合规和安全边界一定要讲清楚

真人参考图不是普通素材，建议把下面几条当成基本规则：

只用你自己的脸，或你明确拿到授权的肖像
不做名人仿冒、虚假代言、误导性内容
涉及商业投放时，提前确认肖像授权范围
涉及地区监管时，按要求标注 AI 生成内容
不要把真人参考图工作流用于诽谤、造谣、伪造证言

这不只是法律问题，也直接影响你的产品可信度。

最终结论

如果你现在问我：Seedance 2.0 支不支持参考真人图像生成视频？

我的答案是：

支持，而且这条路线已经有官方能力依据、市场产品依据和开发者生态依据。问题不在于能不能做，而在于你是不是用了正确的工作流。

最稳的做法永远是这五件事：

用干净清晰的人像做主参考
用提示词写动作，不重写外貌
先短时长测试，再慢慢拉长
只有明确需要时再加更多参考图或参考视频
明确同意、肖像权和发布边界

如果你要自己试，直接从 /image-to-video 开始。想用更多多模态参考能力，可以去 /ai-video-generator。如果你需要更多测试额度，就看 /pricing。

目录