台灣工程師推動Meta台語AI翻譯 盼父親溝通無礙

(中央社記者吳家豪台北2022年10月20日電)臉書
(Facebook)母公司Meta打造人工智慧(AI)技術翻
譯系統,讓使用閩南語(台語)人士能與使用英語者
對話。這項新技術的幕後推手之一,是來自台灣的
Meta軟體工程師陳鵬仁,希望父親能用最熟悉的台語
跟所有人溝通。

Meta發布新聞稿指出,在台灣長大、講中文的陳鵬
仁深深了解語言障礙將影響溝通能力,他的父親陳聖
獎是一位70歲、退休的工廠技術主管,來自閩南語普
遍使用的台灣南部。雖然閩南語與中文這2種語言相
關,仍有許多不同,讓陳鵬仁的爸爸常覺得用中文進
行複雜的對話非常困難。

「我希望我爸跟所有人溝通時,都用台語,這是他
最熟悉的語言。」Meta AI研究員陳鵬仁分享,「他聽
得懂中文,但若是討論比較複雜的主題時,他說話的
速度會比較慢。」不甘於只為爸爸擔心,陳鵬仁開始
投入心力,改善這個問題,推動全新的技術發展,讓
閩南語及英文能相互翻譯。

Meta表示,目前為止,AI翻譯主要著重於各種書寫
語言,但在全球超過7000種的現存語言中,有近半數
主要以口語表達,沒有標準或廣泛使用的書寫文字系
統。這導致Meta無法使用標準技術為這類語言打造機
器翻譯工具,因為標準技術需有大量的書寫文字來訓
練AI模型。

為克服這項挑戰,Meta為主要以口語表達的「閩南
語」打造一個史無前例的人工智慧技術翻譯系統。這
項採用開放原始碼的翻譯系統是Meta Universal Speech
Translator(UST,通用語音翻譯工具)專案的一部
分,致力於開發新的AI方法,希望能為所有現存語言
進行即時語音翻譯,包括主要以口語表達的語言。

為開發這個只有語音的全新翻譯系統,Meta AI研究
人員必須克服許多來自傳統機器翻譯系統的挑戰,包
括資料蒐集、模型設計以及準確度評估。Meta不只會
開放閩南語翻譯模型的原始碼,也會公開評估資料集
和研究報告,讓其他人能重製並以Meta的工作成果為
基礎建立模型。

Meta著手打造閩南語翻譯系統時,面臨的一個重大
障礙,是能否蒐集足夠資料。Meta利用中文作為中間
語言,以建立偽標籤和人工翻譯,也就是先將英語或
閩南語語音翻譯成中文文字,接著再翻譯成閩南語或
英語,並新增至訓練資料中。這個方法利用資源充足
的相似語言的資料,大幅改善模型成效。

Meta指出,評估主要以口語表達的語言例如閩南語
時,挑戰之一是沒有標準的書寫文字系統。為啟動自
動評估程序,Meta開發了一套系統,將閩南語語音轉
譯成標準化的拼音符號,能夠很容易比較不同方法下
的翻譯品質。

Meta也根據名為Taiwanese Across Taiwan的閩南語語
音語料庫,建立第一個閩南語與英語雙向的語音翻譯
基準資料集。Meta將開放此基準資料集的原始碼,鼓
勵其他研究人員合作進行閩南語語音翻譯,一同在這
個領域取得更多進展。

Meta表示,在目前的階段,Meta的作法能讓使用閩
南語的人士與使用英語者對話。雖然相關模型仍在開
發中,而且每次只能翻譯一個完整句子,但已朝向未
來實現為各種語言提供同步翻譯的目標邁進。

Meta認為,AI研究有助於打破在現實世界和元宇宙
中的語言限制,未來所有語言無論是否可以書寫,都
不再是阻礙人們相互理解的障礙,期待為未來順暢無
阻的溝通持續貢獻。
貼心提醒:
1.本公司所提供之即時報價資訊,不代表勸誘投資人進行期貨交易,且不保證此資料之正確性及完整性。
2.實際可交易商品相關資訊請以主管機關公告為限。