The Will Will Web

記載著 Will 在網路世界的學習心得與技術分享

如何利用 Google AI Studio 整理 Whisper 生成的字幕與修正大量錯字

因為我所開辦的課程都會全程錄影,好讓學員可以複習課程內容,最近幾次的課程我還開始幫影片上字幕,讓大家在複習的時候,更能夠理解我在課程中提到的一些偏技術的「專有名詞」。有些不住在臺灣的學員,也有可能會聽不懂臺灣這邊經常聽到的時事口頭禪,我時常會在課程中講一些「時事梗」來活絡氣氛,但是有些學員可能會聽不太懂,這些字幕就是為了讓大家更容易理解課程內容與笑點。我幾乎都是利用超大上下文視窗(context window)的 Google AI Studio 來幫我校正 Whisper 產生的字幕,這篇文章我就來教大家這個技巧。

the process of using AI tools for subtitle correction and accuracy improvement in educational videos

整理字幕的流程

  1. 先進入 Google AI Studio 網站

    先點擊 Create new prompt 開始一個新的對話。

    由於要抓取文字中的錯誤,我基本上會選最聰明的模型 Gemini 1.5 Pro 002

    Google AI Studio

  2. 貼上逐字稿,並且透過 whisper 產生的字幕來找出錯字

    由於用 whisper 產生的字幕,會同時包含 *.json, *.srt, *.tsv, *.txt, *.vtt 這幾種格式,我會先拿不含時間*.txt 字幕來找出錯字。請直接在下方輸入框中貼上 *.txt 逐字稿內容。

    重點是:貼上逐字稿後,一定不能按下 Run 按鈕,而要利用一個在 Google AI Studio 鮮為人知的「多段輸入」技巧,用鍵盤按下 Shift+Enter 來送出提示。透過 Shift+Enter 送出的提示,不會觸發大語言模型執行。

  3. 接著輸入我們想對逐字稿進行揪錯的提示

    我的提示如下:

    幫我找出上述逐字稿中所有最明顯的錯字。
    請以表格列出,顯示兩個欄位:錯誤的詞彙、建議的詞彙
    不要調整原本句子的語氣,校正的方向必須忠於逐字稿原文,主要找出一些容易發生口誤的地方,請專注在特別明顯的錯誤。
    請特別專注於一些潛在的專有名詞錯誤,例如以下詞彙是逐字稿中會出現的詞句:
    - Will 保哥
    - 保哥
    - ChatGPT
    - OpenAI
    - Claude
    - 西遊記
    - 唐僧
    - GPT-4
    - GPT-4o
    - 4o-mini
    - o1
    - o1-preview
    - Prompt
    - DALL-E
    - Squoosh
    - Mermaid
    - GenAI
    - NotebookLM
    - Python
    - Excel
    另外還有一些常見的辨識錯誤:
    - "for all" 通常應該是 "4o"
    

    輸入完就可以按下 Run 按鈕送出提示,等待 Google AI Studio 回應,由於四個小時的逐字稿還蠻多的,回應時間可能會長達 15 秒!😍

    Google AI Studio

  4. 人工校正這些需要校正的詞彙

    由於 AI 的校正可能不是 100% 正確,所以我會逐一檢查 AI 校正的詞彙,並且開啟 Visual Studio Code 對 Whisper 產生的字幕進行搜尋與取代,進行人工校正。這個步驟可能會花費一些時間,但是這個步驟是非常重要的,因為這些字幕是要給學員複習用的,所以我會盡力確保字幕的正確性。

    修正完一輪後,我會重複步驟 2 ~ 4,再做個 3 ~ 4 組,其實每次都會有一些新發現,我會循環到自己滿意字幕的最終品質才會停止,我自己實測這個工作流程可以讓字幕的正確率提升至 99% 以上!👍

後記

各位可能很難想像,這幾個簡單的步驟,節省了我多少腦細胞,不但能讓我的線上課程擁有更高的含金量,也讓我可以專注在更重要的事情上!

不僅如此,使用 Google AI Studio 是完全免費的服務,你只要有 Google 帳號就可以登入使用,而且裡面還有 Google 最新、最前沿的 Gemini 大語言模型,甚至於可以優先使用比 Gemini Advanced (付費服務) 更聰明的模型,這是一個非常值得推薦的服務!

相關連結

留言評論