首頁 > 遊戲 > 遊戲新聞 > 遊戲資訊 / 正文

只需3秒就能復制你聲音的AI，是全新的AI藍海嗎？

2023-01-16 遊戲資訊

2022年屬實是AI大年。

從年初年中的AI繪畫，到年尾的AI作者，好像這個AI已經實實在在的刷了一整年的存在感了。

先是畫圖——畫好圖——畫黃圖，再到寫文——寫好文——寫黃文，我不知道AI的制作者們抱著什么樣的偉大信念制作出來這些新穎的好東西，但只要落到網友們的手里，這些數據模型肯定會被灌滿奇怪的東西。

就拿我群里最近瘋狂轉發的AI繪畫最新訓練成果來說，在我不知不覺間，這小機器人已經可以精準的拿捏我的XP了。

不過今天要介紹的并不是這兩個已經被玩壞的AI，而是微軟最新出品的AI成果——語音合成模型VALL·E。

它可不是那些影視劇講解里的那些“注意看，這個男人叫小帥”的固定語氣語調的AI念稿人，而是號稱“3秒鐘”就可以復制你的聲音的賽博卡卡西。

根據我查來的說法，VALL·E相比傳統的AI語音模型采用“梅爾頻譜”提取特征，它轉換了思路與賽道，將語音合成這個步驟改為“語言模型”的任務。

以前走音素→梅爾頻譜（mel-spectrogram）→波形的流程，被VALL·E改變成了音素→離散音頻編碼→波形。

——當然，盡管這些東西是我寫出來的，但我完全看不懂官方說的是什么，我放張圖也只是顯得文章沒有那么空而已。

在我能看懂的介紹里，讓我覺得最值得發出來給大家講講的，就是這個VALL·E，不只是能用過數據模仿出采樣人的音色，它連語氣和語速都模仿的非常到位。

也就是說，你錄個幾句話給這個AI聽一聽，他就能通過這些數據來識別你的語氣語速，并可以在接下來你制作的“作品”中使用這套數據——約等于，你不張嘴就把話說了。

除此之外，包括采樣者的背景音和話語中的情緒，VALL·E都能通過學習慢慢掌握。

一個音色、語氣、語調、語速、情緒甚至是背景里的環境音被訓練到極致的語音AI，說出的話可能真的和本人差別不大了。

搭配上“AI作者”和“AI繪畫”，好家伙，已經可以組織起一個公司會議上的賽博PPT了，等哪天“AI動畫”出來了，我們沒準還能看見機器人自己拍的電影。

不少網友也評論，繼畫家和作者失業后，這股海克斯狂潮終于輪到配音演員身上了。

像其他 AI 新技術一樣，這個尚未開源的VALL-E在安全、倫理等方面也引發不少人的擔憂，盡管微軟發布了關于使用 VALL-E 的道德聲明，但未來的事兒誰又說得準呢。

怎么樣各位，這么看下來，你覺得這個VALL-E會不會是新的一年里的AI藍海？

精品小說推薦：昔日落魄少年被逐出家族，福禍相依得神秘老者相助，從此人生路上一片青雲！我行我瀟灑，彰顯我性格！彆罵小爺拽，媳婦多了用車載！妹紙一聲好歐巴，轉手就是摸摸大！ “不要嘛！” 完整內容請點擊辣手仙醫