想在自己的電腦上打造高品質的 AI 影片嗎?本文將為您拆解一套強大的本地端工作流。我們將從概念發想開始,利用 ChatGPT 將創意轉化為精確的腳本提示詞,接著在 SwarmUI (ComfyUI 後端) 中,透過先進的 Wan VACE 模型生成影片,並隨時進行細部編修。最後,還會比較此流程與主流 Stable Diffusion (A1111/Forge) 的差異,幫助您瞭解不同工具的優勢。
① 用 ChatGPT 拆解腳本,生成影片提示詞
一部好影片始於一個好腳本。在 AI 生成領域,這意味著一組好的提示詞 (Prompt)。我們可以利用 ChatGPT 的語言理解能力,將腦中的故事畫面,系統化地轉換成 AI 模型能懂的指令。
跟 ChatGPT 對談,先把故事元素丟進來
首先,向 ChatGPT 清晰地描述您的影片核心元素:
拍攝主題:定義情境、角色與動作。例如:「阿里山森林小火車在清晨穿越茶園」。
鏡位/運鏡:指定攝影機的視角與移動方式。例如:「從空拍角度逐漸下降至軌道平視,鏡頭帶有輕微的跟隨抖動」。
畫面規格:設定影片的基本技術參數。例如:720p=「解析度 720×1280,16 幀,長度約 5 秒」。
色調/氛圍/配樂關鍵字:描述影片的風格。例如:「清晨霧氣、暖金色日光、寧靜氛圍」。
請 ChatGPT 回覆「分鏡式」文字
為了對應 Wan VACE 影片生成節點中的 frames
(影格數)參數,您可以要求 ChatGPT 以「分鏡」形式回覆,最好能將描述細化到每 1–2 秒一個鏡頭。同時,請它將正向提示詞 (Positive Prompt) 與負向提示詞 (Negative Prompt) 分開條列,以利後續複製貼上。
範例片段(5 秒 16 幀)
您可以對 ChatGPT 這樣下指令:
「請幫我生成一段 AI 影片的 Prompt,主題是『清晨霧氣中的阿里山小火車』。請用分鏡形式描述,每 1-2 秒一個畫面,總長約 5 秒。風格需要有暖金色日光和雲海。同時提供中英雙語版本與負向提示詞。」
ChatGPT 可能會回覆如下的結果:
Positive Prompt:
(English): "An Alishan forest train passes through a tea plantation from left to right in the early morning mist. In the background, a sea of clouds churns, and warm golden sunlight spills over. The camera, initially at a high aerial angle, gradually descends to a track-level view, following the train with a slight shake."
(中文): 「清晨霧氣中的阿里山小火車自左至右穿越茶園,遠景雲海翻湧,暖金色日光灑落;鏡頭跟隨火車微抖動,空拍角度逐漸下降至軌道平視。」
Negative Prompt:
"logo, watermark, text, oversaturated, grainy, blurry, worst quality, low quality"
這個結果可以直接複製使用。Wan VACE 模型的 UMT5-XXL 文本編碼器支援中英雙語,但仍需注意長提示詞可能超出 CLIP 模型的 token 上限。
② 在 SwarmUI (ComfyUI 後端) 用 Wan VACE 實作
準備好提示詞後,就進入實作階段。我們將使用 SwarmUI 作為操作介面,它能以更友善的方式調度 ComfyUI 後端,執行 Wan VACE 模型。
前置作業:環境與模型
硬體與軟體:建議使用配備至少 12 GB VRAM 的 GPU。安裝 Python 3.11,並根據官方指引安裝最新的 SwarmUI 前端與 ComfyUI 後端擴充。
下載模型權重:
將核心模型
wan2.1_vace_14B_fp16.safetensors
(或較小的 1.3B 版本)放入ComfyUI/models/diffusion_models/
路徑下。將對應的 VAE 檔案
wan_2.1_vae.safetensors
放入ComfyUI/models/vae/
。將 UMT5 編碼器權重放入對應的模型資料夾。
載入範例 Workflow 並設定參數
匯入工作流:在 SwarmUI 介面左側選擇
Workflows
→Import
,直接將官方提供的 Wan VACE Text-to-Video 範例影片 (MP4) 拖入,相關的節點網路會自動展開。確認模型路徑:檢查
Load Diffusion Model
、Load VAE
與Load CLIP
(在此流程中為 UMT5) 三個節點,確保其載入的模型路徑正確無誤。貼上 Prompt:
找到
CLIP Text Encode (Positive)
節點,貼上剛才由 ChatGPT 生成的正向提示詞。在
CLIP Text Encode (Negative)
節點中,貼上負向提示詞。
設定輸出參數:
在核心的
WanVaceToVideo
節點中,調整以下關鍵參數:解析度 (Resolution):可從 640×640 開始測試。若要生成 720P 影片,可設為 1280×720。
影格數 (frames):設為
16
,對應我們前面規劃的 5 秒影片(約 3 FPS)。步數 (steps):設在
16
到24
之間,步數越高細節越多,但運算時間也越長。
執行與產出:點擊
Run
開始生成。在 RTX 4090 GPU 上,使用 14B 權重生成 80 幀的 720P 影片約需 40 分鐘。成品會儲存在ComfyUI/output/video/
路徑下。
這個工作流的強大之處在於,您無須更換模型,只需在同一個 Workflow 中啟用或關閉 R2V (Reference-to-Video)、V2V (Video-to-Video) 或 Inpainting (遮罩編輯) 的相關節點,即可實現更多元的影片編輯功能。
Example video created by Wan VACE
PS. Wan VACE(完整名稱 Wan 2.1-VACE)是阿里巴巴 Tongyi Lab(通義萬相團隊)在 2025 年5月推出並開源的「All-in-One Video Creation and Editing」基礎模型。
③ 與 Stable Diffusion(A1111/Forge)工作流對照
Wan VACE 提供了一站式的影片解決方案,這與以靜態影像為主的 Stable Diffusion 工作流有顯著差異。
重點差異分析:
任務整合度:VACE 用一套權重即可完成從生成到剪輯、物件替換、背景延伸等多種任務。而 Stable Diffusion 則需要依賴 ControlNet、LoRA 或多種外掛組合才能實現類似效果。
時間一致性:VACE 在模型訓練時就已優化了時間維度上的注意力機制 (temporal attention),因此生成的動作與場景變化更為連貫。SVD 則較偏向於影像序列的後處理來維持一致性。
工作流思維:ComfyUI/SwarmUI 的節點式 (Node-Graph) 介面,允許使用者一次性佈局複雜的處理管線,如同專業影視軟體 Nuke。而 A1111 則更像 Photoshop 的批次處理面板,適合快速嘗試單一任務。
結論
本次教學展示了一套從創意到成品的完整 AI 影片生成流程。我們學會了:
用 ChatGPT 快速完成「分鏡拆解」與「Prompt 生成」。
在 Wan VACE + SwarmUI 環境中,將 Prompt 轉化為 5 秒 AI 影片,並具備隨時進行局部編輯的彈性。
相較於 Stable Diffusion 這款強大的靜態圖像生成工具,若您的目標是一站式的影片生成、剪輯與動作遷移,那麼 Wan VACE 的 All-in-One 架構與 SwarmUI 的節點式工作流,將會是更適合影片創作者的選擇。
只要掌握「Prompt 拆鏡」與「節點參數對應」這兩大核心步驟,您就能在本地端用自己的 GPU 生成並微調出高質感的 AI 影片。祝您創作順利!