制作視頻已經好幾年了,但是剪片子一直是讓我比較頭疼的事。
在我制作視頻的最初,如果講的時候出現了磕絆,或者有些展示過程出現問題,我會停下來,然后重新錄制。因為那時候的我不懂得剪輯的意義,覺得所有視頻都是「一條過」的產物。
后來我才明白過來:錄制「一條過」的成本實在太高,實在有些打消我的主觀能動性。在經過若干輪次的迭代之后,我甚至已經用卡片法來錄制視頻了。既然明白了剪輯的重要性,剪輯的工具也就引起了我的重視。
提到視頻剪輯,一般用戶可能會想到剪映,而相對專業的用戶往往會想起 Cut Pro 或者 等。這些工具都很好,不過對于我來說,它們中的大部分功能,我其實都用不上。但是我真正需要的那些功能,它們提供得也不好。
我是個懶人,在開始錄制視頻之前,一般只有一個提綱,甚至只有一個主題。所以講的時候,很有可能中間進了一個死胡同,繞出來的時候前面的就都應該刪掉。可是之前的問題在于整體錄制完成,再去找這些比較麻煩。
所以,我的剪輯目標是:剪掉素材中的錯誤、口癖和過長的停頓;至于 B roll 之類的素材,并不是必須要考慮的問題。
對我來說,剪映或 Cut Pro 等軟件在處理這些問題上,難以給我有效的幫助。
為何選擇
后來,我看到了立青推薦的 ,試過之后,發現真的是剪視頻的利器。它的原理其實非常簡:找到那些長時間聲音低于某一閾值的片段,然后去掉它。這樣句子之間更加連貫。
我一開始對「剪掉所有的無聲片段」頗有些不以為然,因為我頭疼的主要是處理口癖和中間去喝水的片段等。但是實際用起來,我發現這種情況出現的時候,前后一般也會有無聲片段出現。所以我可以根據自動切分的片段長度,來找尋可能有問題的地方。很多時候,長時間流暢表達的部分中間一般都是沒問題的。反之,反復出現無聲片段,意味著這一部分在磕磕絆絆,點開一聽,確實是可疑。這樣一來,剪輯效率提高很多。
支持把剪掉無聲片段之后的內容直接輸出為視頻文件,也可以把它輸出為 Cut Pro 的 XML 項目文檔。我還是覺得在 Cut Pro 里面進行精剪更為穩妥,這樣如果切斷的地方有需要的,還可以找補回來。
雖然好,但是還是沒有解決我的另一個痛點:剪掉不想呈現的那部分內容。
每次剪輯,我還是要在 Cut Pro 里面從頭到尾聽一遍。當然,我一般會用 L 快捷鍵,把播放開到二倍速,以顯著提升效率。不過對于某些內容來說,可能聽了半天,才發現前面的有問題,于是還得重新回過頭去找出來剪掉。這樣操作起來并不直觀,效率明顯還有提升空間。
看到這兒,你可能覺得我太貪心了。但是事實證明,工具確實還能進一步發揮作用。不過這次,就需要人工智能介入了。
我最近發現了一款有意思的視頻剪輯工具,來自于李沐老師。李沐是亞馬遜首席科學家,人工智能框架 作者之一。他在 B 站開設直播課程,教大家深度學習課程。
在 B 站做視頻,李沐老師也經常需要面臨剪輯的問題。根據他自己的介紹,每段視頻里需要剪掉的部分還不少。久而久之,對現在市面上的工具不滿,所以干脆自己用人工智能做一個。
這個工具,叫做 ,對應的 項目的地址在這里。
這種「一言不合就自己開發工具」的脾氣,我特別欣賞。
如何使用
涉及的人工智能,主要指的是 ,它是 出品的一個模型,主要功能是將聲音轉寫為文字。
本文內容聚焦在 ,所以關于 的具體細節就不展開了。如果你感興趣的話,少數派上面有一篇文章,對 做了比較詳細的介紹。我覺得寫得不錯,推薦給你。
李沐老師創造的工具,是這樣的工作原理:
機理并不復雜,下面咱們來看一個實際的例子。
實操案例
這是我前幾天錄制的一段視頻,講盜版軟件為什么會沒落了下去。
我使用 錄制視頻素材,將其 到電腦,文件名為 .mov。我把這段素材存放在名為 2022-11-14-- 的目錄中。
然后執行以下命令:
autocu -d /Users/wsy/Movies/2022-11-14-software-pirate/
這條命令可以讓 監控指定的文件夾。如果目錄下有視頻文件,就進行處理。如果相關的文件發生變動,也會激發 進行后續的操作。此處略過對視頻的第一波處理,因為反正都是自動進行的。完成 的聲音轉錄后,這個目錄里就自動生成了 3 個文本文件。
一個是項目控制文件,.md。這個文件主要用來合并多個視頻。所以如果你目前只錄制一段視頻的話,暫時不用管它。
一個是字幕文件,.srt。
注意因為 默認使用的是 一個小型化模型()。這樣處理的速度更快,但是識別率比起完整模型有妥協。你可以看到其中第一句「盜版」寫成了「倒板」,第二句「莫韋」顯然應該是「末尾」。不過這無傷大雅,不干擾后續識別就好。
另外一個文件,是與字幕對應的 文件,.md。建議你使用 Code 打開。
左側是 原始信息,每一句字幕之前,都有一個選項框()。一開始默認都是不勾選。如果你覺得哪一句的內容需要保留,只需要把 - [] 加上一個 x ,變成 - [x] 即可。
就像這樣:
之后,你就可以快速在字幕文本中游走,把需要的內容摘取出來。剪片子從原本需要面對視頻,就變成了面對文本。如果只看視頻,可能需要反復觀看某一片段,才會發現其中的錯誤;但如果換成文本,幾乎一眼就可以看出需要修改的地方,效率自然提高很多。這也是為什么有的人平時更喜歡看書而非教學視頻,就是因為他們覺得這樣的信息密度才足夠高。
不過,像這樣一行接一行的修改標記,還是有些麻煩。這就是為什么我們要用到 Code,它擁有豐富的插件系統,可以幫助我們輕松批量給任務「調勾」。
安裝插件
你需要在 Code 中搜索并安裝這個插件( ):
安裝完成之后,還需要進行一下簡單設定,保持插件設置與下圖一致即可:
在這個插件的幫助下,只需要選中文本中的若干行(只選一行當然也沒問題),執行快捷鍵 + cmd + 即可完成勾選。
不過,大部分情況下,視頻里需要保留的內容遠比需要刪除的多。把保留的句子都一一選出來,聽起來有點兒反直覺。其實也好辦,你可以把所有需要刪除的句子先選定,然后全選文本,重新執行 + cmd + ,相當于進行一次反選。
注意修改完之后,一定不要忘記勾選該 文件的第一行。這個標記是用來提示 已經完成了內容篩選,可以進行剪輯了。
剪輯完畢后會依照「原文件名_cut」的命名規則,生成一個新的視頻文件,在這個案例中,新的文件名為.mov 。
除此之外, 還會自動生成新的字幕文件,名為 .srt。如此一來,剪輯好的視頻和對應的字幕就一步到位了。不過 對于中文識別的準確率還有待提升,你可能有必要在這里直接修改 srt 內容保證字幕更加精準。
實現效果
用人工智能做視頻剪輯,效果怎么樣呢?
我覺得不錯。至少里面大段講廢了的內容,可以非常容易識別出來,并且批量去除掉,比人工看、聽和剪的過程,要高效許多。
但是現在 還存在幾個小問題:
我覺得最好的解決辦法,是讓 可以像 一樣,直接選擇生成 XML 項目文件,以便在 Cut Pro 或者其他視頻剪輯工具里面再做精修。一來,這種方法省去了調用 剪輯的時間;二來,如果發生錯誤吞字的情況,也可以在 Cut Pro 里面簡單拖拽找回來。
關于這一點,已經有人給李沐老師提了建議:
我也在后面表示了自己對這個提議的支持:
希望這個功能可以早日實現。
小結
本文介紹了李沐老師的人工智能剪輯工具 。通過 聲音到文本轉換,實現依照文字的高效剪輯。希望這款工具可以幫助到你。
你有沒有其他好用的視頻剪輯工具可以分享?歡迎留言,咱們共同進步。
祝剪輯愉快!
如果你覺得本文有用,請充電。
如果本文可能對你的朋友有幫助,請轉發給他們。
歡迎關注我的專欄「科研利器」,以便及時收到后續的更新內容。