Meta 釋出新專案 NotebookLlama,開放原始碼版本仿製 Google NotebookLM 的 Podcast 生成功能,透過 Llama 型號將文字轉化成對話形式內容。
生成流程解析
系統會將上傳的 PDF 新聞或網誌等文件轉換成逐字稿,加入戲劇性對話及插話元素後,再由開源文字轉語音型號輸出。但目前合成語音品質仍帶有明顯機械感,且存在對話重疊問題。
開發團隊未來規劃
Meta 團隊在 GitHub 指出,語音自然度受限於當前文字轉語音型號,考慮未來採用雙 AI 代理辯論方式,取代單一型號撰寫腳本的設計。
技術限制仍存
市場上雖已出現多個模仿 NotebookLM 的語音生成專案,但包括 NotebookLM 在內的所有 AI 方案,都難以避免產生虛構資訊的問題。想聽聽 NotebookLlama 生成出來的 Podcast 效果,可參考這裡。
Wow! Meta dropped an open NotebookLM recipe: NotebookLlama 🔥
— Vaibhav (VB) Srivastav (@reach_vb) October 27, 2024
It uses L3.2 1B/ 3B for pre-processing the PDF, L3.1 70B for Transcript creation, L3.1 8B for re-writes and Parler TTS for Text to Speech ⚡
Step 1: Pre-process PDF: Use Llama-3.2-1B-Instruct to pre-process the PDF… pic.twitter.com/L7hb5GsMtl