工具開發筆記 2026 · 06 · 05

AI 影片量產心法:建一次模板,之後換劇本 10 分鐘就出片

這週我用 AI 做了一卡車影片:給外語家教品牌做的英語教學短片、給行動電源品牌做的新聞快報式短影音,還有把一支橫式 podcast 訪談剪成直版 Reels。做完發現一件事——一旦把流程跑順、建好「模板」,之後要產新片其實換個劇本,10〜15 分鐘就能出一支

三支這週用 AI 做的直式短影音:左為咖啡廳情境的英語教學片(中英雙語字幕)、中為新聞主播快報式短影音(含新聞下標條)、右為訪談 podcast 剪成的直版 Reels(常駐標題+逐句字幕)

這篇就把我整套心法攤開來講,盡量讓沒碰過的人也看得懂。先講最重要的觀念:

一支 AI 影片,拆成兩個階段——「生成」(無中生有把畫面跟聲音做出來)和**「剪輯」**(把素材修乾淨、串成成品)。兩段用的工具完全不同,分開想會清楚很多。

我們先講生成。

第一階段:生成——三個步驟的心法

Step 1:先用 gpt image 2 把「素材」建出來

很多人一上來就想直接生影片,結果畫面忽大忽小、人臉每支都不一樣。我的做法是先停在「圖片」這一步,把場景、人物、道具一張一張定下來,再讓它動。

我用的是 gpt image 2(OpenAI 的生圖模型)。它最大的優點有兩個:

  • 中文字渲染超準。 影片裡要出現中文(黑板標題、新聞下標、字卡),用一般生圖模型常常糊掉變亂碼,gpt image 2 幾乎都對。
  • 可以「改圖」,不只生圖。 你可以丟一張真實的產品照、真實的店面照進去,叫它「只換背景、產品本身不要動」,或是把某個人放進某個場景。比起讓它從零亂畫,這樣保真度高很多(產品的厚薄、側邊很容易被它腦補錯)。

更關鍵的一招是鎖臉、鎖場景。我在 Higgsfield 裡把固定角色(例如教學片的男女主角)跟固定場景,各自存成一張「角色卡 / 場景卡」,之後每張圖都叫同一張卡——這樣跨好幾支影片,人臉跟店景都不會跑掉。系列感就是這樣來的。

實務上我的順序是:先決定整體「長相」(look),再把它鎖成卡。例如教學片我刻意做成「iPhone 隨手拍」的生活感——越想做得「漂亮、電影感」反而越假,要反向加一點不完美(單邊窗光、一點陰影、桌上有生活雜物),看起來才像真人拍的。

Step 2:用 Kling 或 Seedance 讓圖動起來

圖定好之後,把那張圖當成「第一格」,餵給影片模型,叫它動起來。我主要用兩個:

  • Kling 3.0
  • Seedance 2.0

兩個都能「在生成時直接配上人聲」——也就是你在指令裡寫好台詞,它生出來的影片就自帶對嘴的講話聲,不用事後另外配音對嘴。這一點省掉超多工。

這邊有個鐵則:單一場景、一鏡到底,每段抓 5〜8 秒就好,別貪心做 15 秒。 太長有兩個壞處——前面要硬填會拖戲(沒重點觀眾秒滑),後面對嘴一定崩。要切場景?不要在同一段 AI 影片裡切(最容易露餡),用前面講的「卡」跨段保持一致,最後再用剪輯軟體把幾段接起來。

Step 3:語音——這是最容易翻車的環節,要花最多心思

這次我繞了最多路、也最有心得的就是語音。先講清楚:這關沒有標準答案,你一定要拿自己的內容去試——同一個模型,講中文跟講英文、男聲跟女聲、長句跟短句,表現都會差很多。我只能分享「以我這幾支片的情境,最後是怎麼選的」:

  • 我的英文片(咖啡廳教學)→ 我用了 Kling 的內建英文配音。 對我這種「英文短句、對嘴要自然」的情境,它就很夠用了。
  • 我的中文片(新聞主播)→ 我最後選了 Seedance 2.0 的內建語音。 我要的是「台灣女主播」那種口音跟語氣,它的內建聲音在我試過的幾個方案裡最合用。我也繞過遠路——先用別的工具配好音、再事後對嘴,結果反而更怪;也試過幾家 TTS,有的口音很重,我就直接放棄。

所以與其把它當成「中文就一定用 A、英文就一定用 B」的鐵則,不如記住一句:語音是整支片最容易翻車的地方,多花點時間、多試幾家,挑出最適合你這支片語氣的那個。

語音這關還有兩個一定會踩的坑,先講給你聽:

  1. 同音字會唸錯——用「諧音」騙它,畫面字維持正確。 這些內建配音沒辦法精細控制發音,遇到某些詞會唸錯(例如「北捷」會被唸成「北店」、「P630」會亂唸)。我的解法是:餵給它配音的稿子,把地雷字換成諧音(北捷→北傑、P630→P 六三零),但畫面上顯示的字維持正確。開拍前先把稿子過一遍換掉地雷字,省下大把重生的成本。
  2. 它會自己亂加背景音、開頭還會頓一拍。 這些模型生的是「整個聲音場景」,常常自己加笑聲、路人聲、配樂,開頭也常先停約 1 秒才開口(白白浪費了最寶貴的前 1 秒)。指令裡要明確寫「只要這個人的聲音,不要背景笑聲/音樂」「第一格就立刻開口」,不夠乾淨就重生一次,或留到剪輯時把開頭那一拍切掉。

模板的威力:建一次,之後只換劇本

把上面三步跑順之後,真正的省時關鍵是——把「不變的東西」固定下來,變成模板

什麼是不變的?卡司(誰出場)、場景、影片的格式結構(開場怎麼勾、中間幾段、結尾怎麼帶行動呼籲)。這些定案一次之後存起來,之後要做新一集,我只需要寫新的劇本,其他全部沿用。

我目前手上就有兩個成形的模板:

  • 教學片模板:固定一對男女主角+固定的開場(主角手拿小黑板寫今天主題)+固定的結尾(大黑板複習+引導留言)。每集只換主題跟台詞。
  • 新聞快報模板:固定一位主播+「新聞鉤子 → 重點 → 行動呼籲」的結構。每支只換新聞內容跟稿子。

模板建好之後,產一支新片真的就是換劇本 → 重生那幾張圖跟幾段影片 → 串起來,順的時候 10〜15 分鐘。而且這套是可以橫向複製的——新聞快報那套,我打算原封不動拿去做「政府採購標案快報」,只要換稿就好。

成本怎麼算(白話版)

講錢。影片生成主要花在 Higgsfield 的點數(credits)上,我用白話幫你抓個量級:

  • 教學短片(4 小段、每段含英文配音):一支大約台幣 100 元上下
  • 新聞快報片(主播說中文):一支主播片大約 36 點,避開前面講的發音地雷後,整支落在合理範圍;不避雷、一直重生,成本會翻好幾倍——所以**「開拍前把稿子的地雷字換掉」其實是最省錢的一招**。
  • 訂閱方案:Higgsfield 創作者方案約 每月 29 美金,照上面的單價,一個月大概能做十幾支教學短片。
  • gpt image 2 的圖:很便宜,一張幾分到幾毛美金;只有需要中文字的圖(黑板、下標)才用高解析度,純動作的圖用低解析度就好,省點數。

省錢心法一句話:短秒數先測、確定方向了再拉長;純畫面不需要講話的段落關掉配音;地雷字先換掉避免重生。

第二階段:剪輯——用我自製的 Claude 剪片引擎

生成講完,來講剪輯。這次我特別拿那支 podcast 訪談(橫式雙人對談)來測試我之前做的剪片引擎——它用 Whisper(語音轉文字)+ FFmpeg(剪輯) 當底,由 Claude 主導決策。引擎本身怎麼做的,我寫過一篇完整的:用 Claude 自動剪影片:Whisper + FFmpeg 實作筆記,這篇就接著講「實際拿訪談來用」的部分。

核心做法:我寫「乾淨版文字稿」,引擎照著剪

這次最想驗證的是——能不能照我給的文字稿來剪,順便去掉贅字、結巴、停頓?

做法比想像中直覺:

  1. 先把整段訪談轉成逐字稿,每個字都標上精準的時間點(Whisper 轉完,再用一個叫 wav2vec2 的工具把時間校到很準)。
  2. 我把每一句重寫成「乾淨版」——把「嗯、那個、就是…」這種贅字、結巴、重複的字拿掉,只留我要保留的字。
  3. 引擎就照我這份乾淨版,把沒寫進去的字從聲音裡剪掉;字幕直接等於「留下來的聲音」。

這樣做的好處是:聽到的、看到的、跟我寫的乾淨版,三者天生一致。最常見的剪輯災難「字幕清了、但聲音沒清乾淨」就不會發生。

不過這裡有個容易忽略的眉角:贅字不是剪越多越好。剪太乾淨,整支會變得很「碎」、節奏怪怪的,反而不像真人在講話。我的做法是先定一個「鬆緊基準」——開頭的鋪陳廢話狠狠剪,句子中間的語助詞(「那個」「就是」)反而留著保流暢——之後每一支都照同一個基準,整個系列的風格才會一致。

訪談還多一個難題:逐字稿不會告訴你「這句是誰講的」。這支我用「聲紋分群」解決——讓程式聽每一句的聲音特徵,自動把兩個人分成兩群,再切到正在講話的那個人、推近成好看的中景(橫式訪談要切成直式、還要推近,所以我都從原始的**高畫質檔(4K)**去切,放大才不會糊)。

怎麼檢測有沒有剪壞——這段其實是我最得意的地方

老實說,整套工具我自己覺得做得最好的,不是「會剪」,而是設計了一套檢測邏輯。因為 AI 一定會出錯,所以**「怎麼確認它沒剪壞」比「剪」本身更重要**。我的原則是**「掃兩次 + 用耳朵終審」**:

  • 剪之前掃一次:把整段逐字稿讀過,規劃主線、標出要跳掉的離題、找到完整的故事收尾點(對方給的秒數通常是成品的秒數、不準,要靠內容找)。
  • 剪完每一句再掃一次:每句都檢查——時間對齊有沒有跑掉、字幕是不是真的等於聲音、有沒有切錯講話的人、句尾的字音有沒有被砍掉、兩段接起來有沒有「啵」的爆音、結尾凍結的那張臉好不好看。
  • 最後戴耳機,整支從頭聽一遍:殘留的贅字、節奏太趕、講者切錯邊,還有 AI 轉文字偶爾會漏一兩個字、或把同音字聽錯(例如把 scale 聽成 skill)——這些只有耳朵抓得到。機器再準,最後拍板的還是人的耳朵。

但這裡有個血淋淋的教訓,講出來你可能會笑:我明明設計了檢測流程,AI 自己卻不遵守。 它常常剪完就急著回我「好了」,根本沒先確認對齊有沒有跑掉,害我好幾次漏看了壞掉的句子才往下做。後來我學乖了——與其每次拜託它記得檢查,不如把檢查「焊」進流程裡:我讓引擎每剪一句就強制印出一張「對齊 OK / XX」的清單,只要有一句 XX 就不准往下、跳不掉

這大概是這整件事最重要的一課:跟 AI 合作,不能只靠它自律;你要把「檢測」設計成流程裡躲不掉的一關,品質才穩得住。

順帶一提,這次也加了自動調色調光(類似 CapCut 的「自動調節」,但純用 FFmpeg 跑、不花錢),讓直版畫面更通透;位置要排在字幕之前,不然標題顏色會被一起調掉。

小結 & 如果你也想試

整套濃縮成幾句:

  1. 先建素材再生成——用 gpt image 2 把場景、人物、道具定下來,鎖臉鎖景。
  2. 讓圖動起來——Kling 或 Seedance,單場景一鏡到底、5〜8 秒。
  3. 語音最容易翻車——一定要拿自己的內容多試幾家(我這次中文選了 Seedance 2.0、英文選了 Kling,但你的情境不一定一樣);遇到會唸錯的地雷字,用諧音騙、畫面字維持正確。
  4. 建模板——卡司/場景/格式固定下來,之後換劇本 10〜15 分鐘出片。
  5. 剪輯交給引擎、把關交給耳朵——照乾淨文字稿自動去贅字;但 AI 不會自律,要把「檢測」做成流程裡跳不掉的一關,再自己掃兩次、親耳聽過。

跟之前那篇一樣,最快的入門方法,就是把這篇貼給 Claude,請它一步一步帶你做。沒有什麼神奇咒語,就是邊做邊搞懂每一步在幹嘛——這過程真的很好玩,很推薦你試試 XDD


關於作者

我是 Rand,一位有 1500 小時以上經驗的 Life Coach,也是 AI 工具的打造者。助人者要同時服務個案、做行銷內容,還要處理預約、帳務、系統等各種行政事務,壓力山大。所以我開始自己做工具,讓自己能更輕鬆地完成各種個人品牌必備的任務,像自動產出輪播貼文、自動剪影片、自動產出 SEO 文章、AI 友善的網站架構,還有各種好玩的互動測驗用來導流跟引導人思考——這些對我來說,都是真的很好玩的事情!

想看用 AI 讓生活過得更輕省,追蹤 AI 生活實驗室 👉 @life.coach.mtcity,我們一起玩 AI!