你聽過 ChatGPT 講廣東話咩?
如果你係普通話母語者,恭喜你瞬間收穫「精通粵語」成就。反而係識講廣東話嘅人,呢個時候可能要一頭霧水喇, ChatGPT 自帶奇特口音,好似外地人喺度努力講廣東話。
2023年9月嘅一次更新中, ChatGPT 第一次擁有咗「講」嘅能力;2024年5月13日,最新一代模型 GPT-4o 發佈,雖然新版嘅語音功能仲未正式面世,只存在於 demo 中,但從去年嘅更新中,已經可以一窺 ChatGPT 多語言語音對話嘅能力。
而好多人都發現咗, ChatGPT 講廣東話口音濃重,雖然語氣自然,好似真人一樣,但嗰個「真人」肯定唔係廣東話母語者。
為咗查證呢一點,探尋背後嘅原因,我哋展開咗粵語語音軟件嘅對比測試:受測者有 ChatGPT Voice 、蘋果 Siri 、百度文心一言,以及 suno . ai 。其中,前三者均為語音助手, suno.ai 則係近期紅熱極一時嘅人工智能音樂生成平台。佢哋都具備根據提示詞用粵語或者近似粵語嚟生成回應嘅能力。
就詞彙發音而言, Siri 同文心一言都發音正確,但答案比較機械同死板,其餘兩位選手則有唔同程度嘅發音錯誤。好多時候,錯誤之處都係用傾向普通話嘅方式嚟發音,例如「影」粵語應作「 jing2」,變成咗普通話「 ying 」;「亮晶晶」應作「 zing1」,卻讀成「 jing 」。 」。
「高樓大廈」嘅「高」被 ChatGPT 發為「 gao 」,而實際應該係粵拼「 gou1」。土生土長嘅廣東人 Frank 亦指出,呢個係一個非母語者中常見嘅發音錯誤,仲成日被本地人拎嚟開玩笑 —— 因為「 gao 」係指涉性器官嘅廣東話髒話。 ChatGPT 每次發音表現都會略有不同,「高樓大廈」嘅「廈」有時可以發為正確嘅「 haa6」,有時又錯讀為「 xia 」,一個廣東話中唔存在,近似普通話中「廈」嘅發音。
語法上,生成嘅文本明顯更偏書面,只偶爾夾雜口語化表達。遣詞造句亦時常會突然切換為普通話嘅模式,脫口而出「買嘢」(廣東話:買嘢)、「用粵語嚟畀你介紹一下香港啦」(廣東話:用粵語同你介紹下香港啦)等唔符廣東話慣用口語語法嘅句子。
suno.ai 喺創作廣東話饒舌歌詞時,亦寫出類似「街坊邊個仿得到,香港嘅特色真正靚妙」嘅,語義唔明嘅歌詞;我哋將呢句拎畀 ChatGPT 評價,佢指出「呢句似乎係普通話嘅直譯,或者係普通話混合廣東話嘅句法( syntax )」。
作為對比,我哋亦發現,喺佢哋嘗試用普通話嘅時候,呢啲差錯基本上都唔會出現。當然,同係廣東話,廣州、香港、澳門都有唔同嘅口音同用語差別;被視為粵語「標準」嘅西關口音,同香港嘅常用廣東話白話就非常唔同。 但 ChatGPT 嘅廣東話,最多只可以話係「唔鹹唔淡」(指唔熟練,半吊子)嘅普通話母語者會有嘅口音。
呢個係點樣嘅事? ChatGPT 係唔識廣東話咩?但係佢冇直接表示唔支持,而係對佢展開咗一番想像,而呢種想像明確建立喺一種更強勢、更有官方背書嘅語言之上。呢個會唔會成為一個問題?
語言學家兼人類學家沙皮爾( Edward Sapir )認為,口語影響住人哋同世界互動嘅方式。當一種語言無法喺人工智能時代聲張自己,噉意味住咩?對於廣東話嘅樣貌,我哋會逐漸同 AI 共享同樣嘅想像嗎?
冇「資源」嘅語言
翻閱 OpenAI 公開嘅資訊,去年 ChatGPT 推出嘅語音模式展現嘅對話能力,實則由三個主要部分組成:首先由開源嘅語音識別系統 Whisper 將口語轉為文本 —— 再由 ChatGPT 文字對話模型生成文字回復 — — 最後由一個文本轉語音模型( Text-To-Speech ,以下簡稱 TTS )嚟生成音頻,並對發音方式進行微調。
即係話,對話內容仍然係由 ChatGPT3.5嘅本體生成嘅,其訓練集係網絡上已經存在嘅大量文本,而唔係語音資料。
喺呢點上,廣東話存在明顯嘅劣勢,因為佢好大程度上存在於口語而唔係書寫中。官方層面,粵語區使用嘅書面語為源自北方漢語嘅標準書面中文,佢更接近普通話而非粵語;而書面粵語,即係符合粵語口語嘅語法同詞彙習慣嘅書寫系統,又稱粵文,則主要出現喺非正式嘅場合,例如網絡論壇入面。
呢種使用時常唔遵循統一嘅規則。 「大約有30 % 廣東話嘅字,我都唔知應該點寫。」 Frank 就表示,人哋喺網絡傾偈時遇到唔識寫嘅字,成日都只係喺中文拼音鍵盤上面搵個發音近似嘅字打上去。例如廣東話中嘅「亂噏廿四」( lyun6 up1 jaa6 sei3;意即胡說八道),就經常被寫成「亂 up 廿四」。雖然彼此之間大多可以理解,但呢個進一步令現存嘅粵語文本變得雜亂而且標準唔同。
大語言模型嘅出現令人理解咗訓練集對人工智能嘅重要性,以及佢可能帶有嘅偏見。但其實,喺生成式 AI 出現之前,唔同語言之間嘅數據資源差距就已經造成咗鴻溝。大多數自然語言處理系統都係用高資源語言設計同測試嘅,喺全球所有活躍語言中,只有20種被認為係「高資源」語言,例如英語、西班牙語、普通話、法語、德語、阿拉伯語、日語、韓語。
而擁有8500萬使用者嘅廣東話,喺自然語言處理( NLP )中則時常被視為係一種低資源語言。作為深度學習嘅起點,維基百科嘅英文內容壓縮後大小係15.6GB ,繁簡混合版壓縮後係1.7GB ,粵版壓縮後只有52MB ,同近33倍嘅差距。
同樣地,現存最大嘅公開語音數據集 Common Voice 中, Chinese ( China )嘅語音數據有1232小時, Chinese ( Hong Kong )係141小時, Cantonese 係198小時。
語料缺失會深刻影響到機器嘅自然語言處理表現。 2018年嘅一份研究發現,如果語料庫入面嘅平行句子少於13K ,機器翻譯就無法實現合理嘅翻譯結果。呢個亦都影響到機器「聽寫」嘅表現。 ChatGPT Voice 採用嘅開源 Whisper 語音識別模型( V2版本)性能測試,粵語字符錯誤率要明顯高於普通話。
模型嘅文本表現顯示出粵文嘅資源不足,而決定我哋聽感嘅發音同語調又係點樣出錯嘅呢?
機器係點樣學識講嘢嘅?
人類好早就萌生出畀機器講嘢嘅念頭,最早可以追溯到17世紀,早期嘅嘗試包括使用風琴或風箱等,機械地將空氣泵入模擬胸腔、聲帶同口腔結構嘅複雜裝置。呢一個思路隨後被一名叫費伯( Joseph Faber )嘅發明家納用,打造咗一個身穿土耳其服飾嘅說話假人 —— 但當時人哋都唔明白呢個有咩意義。
直到家用電器愈來愈普及,畀機器講嘢嘅主意,先引發咗更多人嘅興趣。
畢竟對絕大多數人嚟講,用編碼進行交流並唔自然,亦有相當一部分殘障人群因此被隔絕喺技術之外。
1939年嘅世博會上,貝爾實驗室工程師達德利( Homer Dudley )發明嘅語音合成器 Voder 向人類發出咗最早嘅「機器之聲」。對比現今機械學習嘅「神秘」, Voder 嘅原理簡單易明,而且場觀眾都可以睇到:一名女性操作員坐喺一台玩具鋼琴一樣嘅機器前,通過熟練控制10個按鍵,嚟產生近似於聲帶摩擦嘅發音效果。操控員仲可以踩下腳踏板,改變音高,模擬更歡快或者更沉重嘅語氣。一旁,一名主持人不斷畀觀眾提出新嘅詞語,以證明 Voder 嘅聲音並非預先錄製。
透過當年嘅錄音,《紐約時報》評價, Voder 嘅聲音好似「深海中傳來外星人嘅問好」,又好似個爛醉如泥嘅人囫圇吐字,難以理解。但係喺當時,呢種技術已經足以令人驚奇不已,呢屆世博會期間, Voder 吸引咗全世界超過500萬人次前來參觀。
早期智能機器人、外星生物嘅聲音想像從呢啲裝置中獲取咗諸多靈感。 1961年,貝爾實驗室嘅科學家令 IBM 7094唱起咗18世紀嘅英國小曲「 Daisy Bell 」。呢首係已知最早嘅由電腦合成聲音演唱嘅歌曲。 《2001:太空漫遊》嘅作者克拉克曾經去過貝爾實驗室聽 IBM 7094唱 Daisy Bell ,呢本小說入面,超級電腦 HAL 9000最先學會嘅就係呢首歌。喺電影版入面,片末被初始化嘅 HAL 9000意識混亂時,開始吟唱起「 Daisy Bell 」,靈動擬人嘅聲音逐漸退歸於機械嘅低吼。
自此,語音合成經歷咗數十年嘅演進。而喺 AI 時代嘅神經網絡技術成熟之前,串聯( concatenative synthesis )同共振峰合成( formant synthesis )係最常見嘅方法 —— 其實如今常見嘅好多語音功能仍然係透過呢兩種方法實現嘅,例如讀屏。其中,共振峰合成喺早期占據主導地位。佢嘅發聲原理同 Voder 嘅思路好相似,利用基頻、清音、濁音等參數嘅控制結合,嚟生成無限量嘅聲音。呢個帶嚟咗一個好大嘅優勢,你可以用佢嚟產生任何語言:早喺1939年, Voder 就可以講法語言喇。
咁當然佢當然都可以講廣東話。 2006年,仲喺中山大學讀計算機軟件理論碩士嘅廣州人黃冠能喺計劃畢業課題時,諗到可以做一款適用於視障人士嘅 Linux 瀏覽器,過程中佢接觸到咗 eSpeak ,一款採用共振峰合成嘅開源語音合成器。由於喺語言上嘅優勢, eSpeak 出現之後好快就被投入實際應用,2010年 Google 翻譯開始為大量語言添加朗讀功能,包括普通話、芬蘭語、印尼語等,就係透過 eSpeak 實現嘅。
2015年11月24日,中國北京,一座機械臂用毛筆寫中文字。
黃冠能決定為 eSpeak 添加佢嘅母語,即係廣東話嘅支持。但由於原理嘅局限, eSpeak 合成嘅發音有着明顯嘅縫合感,「就好似你學習中文,唔係透過漢語拼音,而係英文嘅音標嚟拼讀一樣,效果就好似一個外國人學講漢語。」黃冠能表示。
所以佢又做咗 Ekho TTS 。如今,呢款語音合成器支援廣東話、普通話,甚至係詔安客語、藏語、雅言、廣東台山話等更為小眾嘅語言。 Ekho 採用嘅係串聯嘅方法,更淺顯嘅講法就係拼貼 —— 預先錄製人類發音,「講嘢」時將佢哋拼貼埋一齊。噉樣一嚟,單字發音會更加標準,而一啲常用詞彙如果被完整錄入,亦會令聽感更加自然。黃冠能整理咗包含5005個音嘅廣東話發音表,由頭到尾錄製完成需要2到3個鐘。
深度學習嘅出現為呢個領域帶嚟咗變革。基於深度學習算法嘅語音合成從大規模語音語料庫中學習文本同語音特徵之間嘅映射,而唔需要依賴事先設定嘅語言學規則同錄製好嘅語音單元。呢種技術令機器聲音嘅自然程度向前邁進咗一大步,好多時效果已經同真人無異,而且憑藉十幾秒嘅語音就克隆出一個人嘅音色同講嘢習慣 —— ChatGPT 嘅 TTS 模塊使用嘅就係呢種技術。
相比起共振峰合成同串聯技術,呢類系統為語音合成省咗大量嘅前期人力成本,但亦對文本同語音嘅配對資源提出咗更高嘅要求。比如 Google 2017年推出嘅端到端模型 Tacotron ,就需要超過10小時嘅訓練數據先可以獲得較好嘅語音質量。
為咗照顧到好多語言嘅資源稀缺,近年,研究者提出咗一種遷移學習嘅方法:先用高資源語言嘅數據集訓練出一個通用模型,再將呢啲規律遷移到低資源語言嘅合成中。 一定程度上,呢種遷移而來嘅規律仍然攜帶住原本數據集嘅特徵 —— 就好似擁有第一母語嘅人去學習一門新語言時,會帶入自身母語嘅語言知識。 2019年 Tacotron 團隊就曾經提出過一個模型,可以喺唔同語言之間克隆同一個講嘢者嘅嗓音。喺 demo 演示中,英文母語者喺「講」普通話時,儘管發音標準,但係帶有十分明顯嘅「外國人口音」。
《南華早報》上嘅一篇評論中指出,香港人用標準漢語寫作,為咗令所有講中文嘅人都可以理解自己嘅意思,必須使用現代標準漢語中嘅「佢哋」 —— 「佢哋」,粵拼為 “ taa1 mun4 ” ,係一個粵語口語幾乎永遠唔會用嘅詞;粵語中嘅意指 “ 佢哋 ” 嘅,係發音寫法都截然不同嘅 “ 佢哋 ” ( keoi5 dei6)。
喺一個解法處理普遍問題呢一點上,最新嘅 GPT-4o 模型做得更加極致, OpenAI 介紹,佢哋端到端噉訓練咗一個跨文本、視覺同音頻嘅模型,所有輸入輸出都由呢一個通用嘅神經網路進行處理。該模型點樣處理唔同語言,呢一點仲未明確,但睇落佢喺跨任務之間嘅通用性要比過去都強。
但廣東話同普通話之間嘅互通時而會令問題更加複雜。
喺語言學上,有「語言分層」或者「雙層語言」( diglossa )呢一個概念,指喺特定社會中存在兩種緊密聯繫嘅語言,一種具有更高威望,通常為政府所用,另一種則常作為方言口頭使用、或謂之白話。
喺中國嘅語境中,普通話係最高層次嘅語言,用於正式書寫、新聞播報、學校教育同政府事務。而各地方言,如粵語、閩南語(台語)、上海話等,則係低層次語言,主要用於家庭同地方社區嘅日常口頭交流。
所以,喺廣東、香港同澳門就造成咗呢種現象,粵語係大多數人嘅母語,用於日常口語交流,而正式嘅書面語言則通常係使用普通話嘅書面標準漢語。
兩者之間有好多相似但實際唔同,諸多如「佢哋」同「佢哋」呢種「唔和諧對」,亦反而可能導致由普通話到粵語嘅遷移變得更加困難同誤會重重。
日漸邊緣化嘅粵語
「對於粵語未來嘅擔憂絕非空穴來風。語言衰微發生嘅速度好快,可能喺一、兩個世代之內就式微,而一旦語言邁向衰亡,就好難力挽狂瀾。」 James Griffiths 《請說國語》
至此,似乎可以認為,語音合成喺粵語上嘅表現唔好係技術處理低資源語言時嘅能力所致。採用咗深度學習算法嘅模型,喺面對唔熟悉嘅詞語時,會生出聲音嘅幻象。 但香港中文大學電子工程系教授 Tan Lee ,喺聽過 ChatGPT 嘅語音表現之後,畀咗一點唔同嘅意見。
Tan Lee 自1990年代初開始致力於語音語言相關嘅研究,領導開發咗一系列以粵語為核心嘅口語技術,並得到咗廣泛嘅應用。佢喺2002年同團隊合作推出嘅粵語語音語料庫 CU Corpora ,係當時世界同類數據庫中最大嘅,包含兩千多人嘅錄音數據。蘋果嘅第一代語音識別喺入面,好多公司同研究機構希望開發粵語功能嘅時候,都曾經向佢哋購買呢套資源。
喺佢眼中, ChatGPT 嘅廣東話語音表現「水平唔係好好,主要係唔穩定,聲音嘅質量、發音嘅準確性整體都唔係令人好滿意」。但呢種表現唔好並唔係源於技術局限。其實,如今市面上好多具備廣東話能力嘅語音生成產品,質量都要遠高於此。以至於佢對網絡視頻中 ChatGPT 嘅表現感到難以置信,一度以為係深度仿冒嘅贗品,「如果係做語音生成模型嘅,做成噉樣基本上見唔到人,等於自殺」。
以香港中文大學自身開發嘅系統為例,最先進嘅一批喺語音效果上已經好難分辨係真人定係合成嘅聲音。同普通話同英文等更強勢嘅語言相比, AI 廣東話只係喺一啲更個性化同生活化嘅場景中,情感表現會遜色啲,例如喺父母同小朋友嘅對話、心理諮詢、工作面試嘅場景中,廣東話會顯得比較冰冷。
「但嚴格嚟講,喺技術上呢個並冇乜難度,關鍵在於社會資源嘅選擇。」 Tan Lee 表示。
相比起20年前,語音合成領域已經發生咗翻天覆地嘅變化, CU Corpora 嘅數據量同如今嘅數據庫相比「可能仲未到萬分之一」。語音技術嘅商業化令數據成為咗一種市場資源,只要願意,數據公司隨時可以提供大量嘅定製數據。而廣東話作為口語化語言,文本同語音嘅平行數據缺少嘅問題,近年隨住語音識別技術嘅發展,亦已經唔再係一個問題。喺當下,廣東話作為「低資源語言」嘅講法, Tan Lee 認為已經唔再準確。
亦正正係因為咁,喺佢眼中,市面上機器嘅廣東話表現反映嘅並唔係技術嘅能力,而係市場同商業嘅考慮。 「假設而家全中國一齊學廣東話,咁肯定可以做起嚟;又例如,而家香港同內地越嚟越融合,假設有一日教育政策變成,香港嘅中小學唔可以用廣東話,只可以講普通話,噉又會係另一個故事喇。 ”
「食下咩就吐出咩」嘅深度學習展現出嘅口音,其實係廣東話喺現實空間受到嘅擠壓。
黃冠能女兒啱啱上廣州嘅幼稚園中班,而由細到大只會講廣東話嘅佢,喺上學一個月之後,就精通咗普通話。如今,就算係同屋企人鄰居嘅日常交流,佢都更加習慣用普通話,只有同黃冠能仲願意講廣東話,「因為佢最想同我一齊玩,就要根據我嘅喜好嚟」。喺佢眼中, ChatGPT 嘅表現就好似係女兒如今講粵語時嘅樣子,好多詞彙諗唔起點講,就用普通話嚟代替,或者係透過普通話猜測佢嘅發音。
呢個係廣東話喺廣東地區長期唔受重視,甚至從官方語境中被完全排除嘅結果。 1981年廣東省人民政府嘅一份政府文件中寫道,「推廣普通話係一項政治任務」,尤其對於方言複雜,對內外交往頻繁嘅廣東,「力爭三、五年內大中城市一切公共場合」。都係用普通話;六年內各類學校基本普及普通話。 ”
喺廣州成長嘅 Frank 對此亦有好深嘅記憶,童年電視公共頻道入面播放嘅電影,外語片都冇中文配音,使用字幕,唯獨粵語片一定會有普通話配音先會喺電視上播放。喺呢個背景下,粵語日漸式微,使用者數量驟減,校園牽頭「封殺粵語」,亦引發咗對粵語存亡以及同佢相關嘅身份認同嘅激辯。 2010年,廣州嘅網絡同線下爆發大規模 “ 撐粵語 ” 行動。當年嘅報道中提及,人哋將呢場論戰同法國小說《最後一課》中嘅場景相提並論,認為大半個世紀嘅文化激進主義令原本茂盛嘅語言枝幹日益萎縮。對於香港,廣東話更係本地文化嘅關鍵載體,港片、港樂對外塑造咗呢度社會生活嘅面貌。
2014年,教育局官網曾經刊登一篇文章,文中稱廣東話為「唔係法定語言嘅中國方言」,引發咗激烈嘅爭論,最終以教育局人員出面道歉收場。 2023年8月,香港捍衛粵語組織「港語學」宣布解散,創辦人陳樂行喺之後嘅採訪中提及廣東話喺香港面對嘅現狀:政府積極推動「普教中」,即係用普通話教授中文科[1]。 ,但因為市民關注,令政府 “ 慢咗個步伐 ” 。
呢啲都足見喺香港人心目中廣東話嘅重要性,但亦顯示出呢個語言喺本地面對嘅長期壓力,冇官方身分嘅脆弱性以及政府同民間嘅持續角力。
不被代表嘅聲音
語言嘅幻象唔單止存在於粵語中。 Reddit 論壇同 OpenAI 嘅討論區,來自世界各地嘅用戶都反映咗 ChatGPT 喺講非英語語言時存在類似表現:
「佢嘅意大利語語音識別非常好,總係聽得明同表達流利,就好似一個真人。但奇怪嘅係,佢有英國口音,就好似一個英國人講緊意大利語。」
「本英國人表示,佢有美國口音。我好討厭呢一點,所以我選擇唔用。」
「荷蘭文都係,好煩,仿佛佢嘅發音係用英文音素訓練出嚟嘅。」
語言學上,將口音定義為一種發音方式,每個人受到地理環境、社會階層等因素影響,都或多或少會有發音選擇上嘅差異,呢個通常體現喺音調、重音或詞彙選擇上嘅唔同。有趣嘅係,過去被廣泛提及嘅一啲口音,大多源於世界各地嘅人試圖掌握英文時從母語中攜帶而來嘅習慣,例如印度口音、新加坡口音、愛爾蘭口音 —— 呢個反映咗世界語言嘅多樣性。但人工智能展現出嚟嘅,就係主流語言對區域性語言嘅曲解同反向入侵。
技術放大咗呢種入侵。 Statista 喺今年二月嘅一份數據報告中著重點出,雖然全世界只有4.6 % 嘅人將英文當母語,但係佢卻壓倒性噉佔據網絡文本嘅58.8 % ,呢個意味住佢喺網絡上具有比現實中更大嘅影響力。就算係將所有識講英文嘅人納入,呢14.6億人都只係佔世界人口嘅唔夠20 % ,即係話世界上大約五分之四嘅人都理解唔到網絡上發生嘅大部分事情。進一步嚟講,佢哋亦都好難畀精通英文嘅人工智能為自己工作。
一啲來自非洲嘅計算機科學家發現, ChatGPT 經常錯解非洲語言,翻譯好粗淺,對於祖魯語( Zulu ;班圖語嘅一種,全球約有900萬使用者),佢嘅表現 “ 好壞參半、令人捧腹 ” ,對於提格雷尼亞語( Tigrinya ;母語國主要為以色列同埃塞俄比亞,全球約有800萬使用者)嘅提問,則只能得到亂碼嘅回答。呢一個發現引發咗佢哋嘅擔憂:缺乏適用於非洲語言、可以識別非洲名稱同地點嘅人工智能工具,會令非洲人民難以參與到全球經濟體系,例如電子商務同物流中,難以獲取資訊並自動化生產過程,進而被阻擋喺經濟機會之外。
將某種語言作為「黃金標準」嘅訓練方式,仲會令人工智能喺判別時有所偏差。史丹福大學2023年嘅一項研究發現,人工智能錯誤地將大量托福考試作文(非英語母語者嘅寫作)標記為 AI 生成,對於英語母語學生嘅文章時卻唔會噉樣;另外一項研究則發現,喺面對黑人講嘢者時,自動語音識別系統嘅錯誤率幾乎係面對白人時嘅兩倍,而且呢啲錯誤並唔係由語法,而係「語音、語音或韻律特徵」,即係「口音」引起。
令人更不安嘅係,喺模擬庭審嘅實驗中,面對非裔美式英語嘅使用者,大語言模型判處死刑比例要高過講標準美式英語嘅人。
一啲擔憂嘅聲音指出,如果唔考慮底層技術嘅缺陷,只因便利就唔假思索噉講現有嘅人工智能技術投入使用,將會產生嚴重嘅後果。比如一啲法庭轉錄已經開始使用自動語音識別,對於有口音或者唔精通英文當事人嘅語音記錄更可能產生偏差,而帶嚟不利嘅判決。
更進一步思考,未來人哋會唔會為咗被 AI 理解而放棄或者改變自己嘅口音?現實中,全球化同社會經濟發展嘅已經帶嚟呢種改變。 Frank 目前喺北美讀研究生,同班嘅加納同學同佢分享過當下呢個非洲國家嘅語言使用現狀:書面文本基本上都係用英文,就算係私人嘅文本,例如書信都係咁。口語中則夾雜咗大量英文單詞,呢個導致即使係當地人,都逐漸開始忘記一啲非洲母語詞彙或表達方式。
喺 Tan Lee 眼中,如今人哋正陷入對機器嘅一種痴迷。 「因為機器而家做得好,我哋就拼命噉同機器講嘢」,呢個係一種本末倒置。 「我哋點解講嘢?我哋講嘢嘅目的唔係為咗轉成文字,亦唔係畀佢生成回答。喺現實世界,我哋講嘢嘅目的係為咗交流。」
佢認為,技術發展方向應該係令人同人之間可以溝通得更好,而唔係同電腦交流得更好。喺呢個前提下, “ 我哋好容易諗到好多有待解決嘅問題,例如有人聽唔到,可能因為耳聾,亦可能離得太遠,可能唔識呢個語言,可能大人唔會講小朋友嘅話,小朋友唔會講大人話。 ”
如今有好多好玩嘅語言技術,但係佢哋係咪令我哋溝通得更加順暢?佢喺包容每個人嘅唔同,定係令人愈發同主流靠近呢?
當人哋慶祝 ChatGPT 帶嚟嘅前沿突破,日常中嘅一啲基礎應用仍然未從中受益。 Tan Lee 至今仍然可以喺機場廣播中,聽到合成語音發出錯誤嘅發音,「溝通嘅第一要點就係準確,但呢啲都冇做到,呢個係唔可以接受嘅」。
幾年前,因為個人精力有限,黃冠能停止咗 Ekho 對安卓系統版本嘅維護,但係停咗一段時間,突然又有用戶跑嚟希望佢將佢恢復。佢先知道,如今安卓系統已經冇免費嘅粵語 TTS 可用喇。
用當下嘅眼光睇嚟,黃冠能開發嘅 Ekho 採用嘅已經係完全落伍嘅技術,但仍然具有獨特之處。作為本土嘅獨立開發者,佢喺設計時帶入咗對於呢個語言嘅切身經驗。佢記錄嘅廣東話包含咗七個聲調,其中第七個係香港語言學會提出嘅 Jyutping (粵拼)中唔存在嘅一個發音。 「『煙』呢個詞喺『抽煙』同『煙火』中,會發出唔同嘅聲調,即係第一聲同第七聲。」
喺整理發音字典時,佢曾經請教過 Jyutping 嘅研發者,得知隨住時代變化,年輕一代嘅香港人唔再分辨第一聲同第七聲嘅分別,呢個音亦因此逐漸消失咗。但佢仍然選擇將第七音納入,呢個並唔係出於公認嘅標準,只係佢個人嘅情感記憶,「土生土長嘅廣州人係可以聽出嚟嘅,而家使用仲係非常普遍」。
只聽到呢個音,老廣就識分,你係本地人定係外來嘅。 (端媒體)