因為我所開辦的課程都會全程錄影,好讓學員可以複習課程內容,最近幾次的課程我還開始幫影片上字幕,讓大家在複習的時候,更能夠理解我在課程中提到的一些偏技術的「專有名詞」。有些不住在臺灣的學員,也有可能會聽不懂臺灣這邊經常聽到的時事或口頭禪,我時常會在課程中講一些「時事梗」來活絡氣氛,但是有些學員可能會聽不太懂,這些字幕就是為了讓大家更容易理解課程內容與笑點。我幾乎都是利用超大上下文視窗(context window)的 Google AI Studio 來幫我校正 Whisper 產生的字幕,這篇文章我就來教大家這個技巧。
整理字幕的流程
-
先進入 Google AI Studio 網站
先點擊 Create new prompt 開始一個新的對話。
由於要抓取文字中的錯誤,我基本上會選最聰明的模型 Gemini 1.5 Pro 002
。
-
貼上逐字稿,並且透過 whisper
產生的字幕來找出錯字
由於用 whisper 產生的字幕,會同時包含 *.json
, *.srt
, *.tsv
, *.txt
, *.vtt
這幾種格式,我會先拿不含時間的 *.txt
字幕來找出錯字。請直接在下方輸入框中貼上 *.txt
逐字稿內容。
重點是:貼上逐字稿後,一定不能按下 Run
按鈕,而要利用一個在 Google AI Studio 鮮為人知的「多段輸入」技巧,用鍵盤按下 Shift+Enter
來送出提示。透過 Shift+Enter
送出的提示,不會觸發大語言模型執行。
-
接著輸入我們想對逐字稿進行揪錯的提示
我的提示如下:
幫我找出上述逐字稿中所有最明顯的錯字。
請以表格列出,顯示兩個欄位:錯誤的詞彙、建議的詞彙
不要調整原本句子的語氣,校正的方向必須忠於逐字稿原文,主要找出一些容易發生口誤的地方,請專注在特別明顯的錯誤。
請特別專注於一些潛在的專有名詞錯誤,例如以下詞彙是逐字稿中會出現的詞句:
- Will 保哥
- 保哥
- ChatGPT
- OpenAI
- Claude
- 西遊記
- 唐僧
- GPT-4
- GPT-4o
- 4o-mini
- o1
- o1-preview
- Prompt
- DALL-E
- Squoosh
- Mermaid
- GenAI
- NotebookLM
- Python
- Excel
另外還有一些常見的辨識錯誤:
- "for all" 通常應該是 "4o"
輸入完就可以按下 Run
按鈕送出提示,等待 Google AI Studio 回應,由於四個小時的逐字稿還蠻多的,回應時間可能會長達 15
秒!😍
-
人工校正這些需要校正的詞彙
由於 AI 的校正可能不是 100% 正確,所以我會逐一檢查 AI 校正的詞彙,並且開啟 Visual Studio Code 對 Whisper 產生的字幕進行搜尋與取代,進行人工校正。這個步驟可能會花費一些時間,但是這個步驟是非常重要的,因為這些字幕是要給學員複習用的,所以我會盡力確保字幕的正確性。
修正完一輪後,我會重複步驟 2
~ 4
,再做個 3 ~ 4 組,其實每次都會有一些新發現,我會循環到自己滿意字幕的最終品質才會停止,我自己實測這個工作流程可以讓字幕的正確率提升至 99%
以上!👍
後記
各位可能很難想像,這幾個簡單的步驟,節省了我多少腦細胞,不但能讓我的線上課程擁有更高的含金量,也讓我可以專注在更重要的事情上!
不僅如此,使用 Google AI Studio 是完全免費的服務,你只要有 Google 帳號就可以登入使用,而且裡面還有 Google 最新、最前沿的 Gemini 大語言模型,甚至於可以優先使用比 Gemini Advanced
(付費服務) 更聰明的模型,這是一個非常值得推薦的服務!
相關連結