你又有否玩過「變聲器」?在接電話時把自己的聲音變做另一個人物,男的變做女的,女的變做小孩,蠻有趣,對方不知道是誰又或是誤以為打錯電話。時至今日,坊間還有不同的變聲器產品售賣;當然,現在要玩變聲功能,多以電腦應用軟硬件及手機 Apps 為主了。
近年網路直播盛行,不少網路直播聲咭產品應運而生,當中多數也配備了「變音」功能,好讓聲音可以模擬成其他音色和角色,滿足網路直播的多元需求。而變音質素的好壞,絕對和產品所配備的音頻硬件速度和演算法的優劣有關。所以專業一點的直播聲咭套件,一般要幾千元甚至上萬。
「變音」的基本原理就是改變聲音原本的頻率分怖,從而達至「變音」效果。想了解多一點,其實就要先了解聲音的內容本質。
一般來說,聲音的組成主要是基音和泛音。基音頻率是該聲音的音調,而泛音是多個頻率組合而成,一般和基音有一些固定的關係,而也因應不同的共鳴機制而有所差異,而泛音主要是表現音色的主要因素。
相信不少人也有去 karaoke 唱歌的經驗,那個轉調的功能,就是把伴奏音樂的整個頻率組合同時升降。把歌曲的調改變,用以配合不同人的音域範圍。而人聲「變音」,原理上和大家熟悉的轉調類同,但針對不同輸出的音色控制,在演算法上對泛音轉移方面,就不只是簡單的全頻升降而已。
泛音上需要有不同的升降比例處理,才能表現出更自然的音色,原因是不同人物的聲音,會有不同泛音的分佈頻率和特質;聲音分析工程師,往往需要擷取不同的聲音的頻譜分佈,獲知聲音處理時需要進行的運算和處理方法,才能表現出最佳和最自然的聲音。
坊間有個有趣的實驗,不知大家有否聽過?就是吸一口氦氣後,你的聲音會短暫地變尖了和變高了,大家知道這個有趣實驗箇中的原理嗎?
這其實就是改變了原本聲音泛音列的頻率分佈而使聲音的音色好像尖了和高了。因為氦氣和原本空氣的聲音速度有所不同,所以便影響了共鳴的特性,從而影響了原有的泛音列分佈。
說到「變音」的處理,如果把男人的聲音變為女人的聲音,在基音和泛音提升的比例上是會有不同,男人平均基音範圍由 100Hz 至 900Hz,泛音範圍由 900Hz 至 8,000Hz,女人平均基音範圍由 350Hz 至 3,000Hz,泛音範圍由 3,000Hz 至 17,000Hz,所以從「男聲」變「女聲」的轉換中,往往泛音的提升率會比基音的少。所以需要獨立處理不同泛音改變的比例,否則變換出來的聲音就會欠缺自然度甚至類似外星人的聲音了。這也是為何有些較高水平的演算法能變出更真實和更自然的聲音的原因。
不同人聲的音色特質是由它的共鳴機制和結構所影響,而這些泛音的峰值所形成的特性我們稱之為「共振峰」。共振峰是用來描述聲學共振現象的一種概念,在語音科學及語音學中,描述的是人類聲道中的共振情形。
不同動物或是不同人的共振峰是會有所差異的,它反映了聲音的特質和音色,很多歌手在聲學訓練期間也會不經意地改變了自己唱歌時候聲音的共振峰形態去達到某些聲音特質,如加強音色的穿透力等等。
專業的歌手可以發出多於十種不同的音色用以配合歌曲所需的情感表達,當然每個人的本有特質受其生理結構所限,有些本有的特質卻是難以改變。
曾有朋友向我提出想協助研發一種音色模仿的麥高風,可以模擬歌手的聲音,意思是當你用這個某某歌手模擬麥高風唱歌和說話時,你的聲音音色就會很像那個歌手的音色。這是在麥高峰內配有「變音」運算法的音頻 DSP 芯片,把你的聲音即時變為那個歌手。哇!多麼的興奮,多麼的神奇吧!
假如我們有了某人聲音的共振峰(泛音)分佈的大數據,再把它導入並取代了你本來聲音的共振峰,理論上是可以模擬到某人的音色,然而每個人發不同音時的共振峰可以是千變萬化,所以涉及所需擷取的數據量可不少。所以相對硬件要求頗高,而相信今時今日大數據和機械學習的音頻方案在這個功能應用上才可大派用場。
除此之外,説到唱歌,每個歌者發聲的方法、音準、音域、咬字各方面也有其獨特性。所以極其量只會有較接近的音色,實在難以完全模擬到某人的聲音特色和神髓,不知道不久的將來會否有這種新世代的 K 歌神器出現呢?話說到底,自己建立的一套發聲方法和上天賜予你的聲音,就是用來顯現自己的獨特性,又何需虛偽地模擬別人呢?
按此了解更多影音資訊
請瀏覽 SPILL 網站及關注旗下社交平台:
MeWe:@spill
Facebook:@spillhk
Instagram:@spillhk
YouTube:@spillhk
訂閱 SPILL Paper 電子通訊,為你送上電郵限定的精選新聞,以及不同欄目的深度報導,評測、觀點、專題,包羅萬有。