【湯紹成專欄】中國文字如何推動 AI 發展

湯紹成/亞太綜合研究院院長

人工智慧(AI)在語言處理領域的發展,離不開大量的語言數據支持。中國文字(漢字)因其獨特的結構和廣泛的使用,為 AI 技術的演進提供了許多優勢。

由於漢語是豐富的語言數據庫,也是世界上使用人數最多的語言之一,其中最多母語使用者是漢語,最多總使用者(母語與非母語)是英語,人數均超過十億,而互聯網上大量的中文文本資料,為 AI 訓練提供了豐富的數據支持。此外,漢語語料的規模和多樣性,讓AI 在訓練過程中能夠提升語境理解能力,從而在不同應用場景中更準確地進行語言處理。

尤其漢字的語義密度高,擁有字詞結構的語言優勢,一個字通常包含豐富的信息,使得 AI 在語言模型訓練時能夠更高效地學習詞彙和句子結構。例如,「和」字在不同上下文中可以表示和平、以及、與、融合等不同含義,漢語的多義性和語境依賴性強,這促使 AI 在推理時必須考量更細緻的上下文信息,進一步提升自然語言處理技術。

此外,漢語詞彙多由單字組合而成,這種靈活性使得 AI 能夠以較少的基本單位構造大量詞語,提高語言模型的泛化能力。比如「牛」與「肉」兩個字結合起來變成「牛肉」,簡單明瞭,但英文則必須由ox或cow與meat來創造新字beef,增加了學習的難度。

還有比如「小兒科」,民眾一看就懂,但是英文是Pediatrics,源自希臘文,一般人難以辨識,必須重新學習。當然,英文也有一定的優勢,比如簡寫AI,就代表「人工智慧」,使用比較方便,但中文可以立即採用。反之英文若要引入中文概念,比如「危機」與「風水」,以及眾多的成語,比如「刻舟求劍」,那就十分複雜。

更具體的實例,就是中文作為聯合國六種官方語言之一,其在各種文件中的頁數,要比其他字大約少1/3,反映出中文語言的高度濃縮性和表意效率。這對AI在處理中文語料時(如壓縮、摘要、翻譯)也構成了另一種優勢:信息密度高、結構清晰,可以用更少的字達到同樣的信息傳達效果。

比如用英文可能需要 30–45 個字母(甚至更多的單字),而中文可能只要 8–10 個字。例如:「氣候變遷與可持續發展」這樣的表達在中文中非常緊湊,但在英語中是 "Climate change and sustainable development"。

總之,漢字的獨特性,使得 AI 在語言處理與語音識別等領域擁有強大的發展潛力。隨著大模型技術的不斷演進,AI 在中文語言處理上的能力將進一步提升,並推動全球範圍內的多語言技術發展。未來,AI 如何利用中文的特點來構建更智能的語言模型,將是值得持續探索的重要課題。

※以上言論不代表梅花媒體集團立場※  

延伸閱讀

熱門文章

分享