童言童語知多少?語言學家如何研究兒童語音發展

落風、臭奶呆~可愛發音藏著哪些秘密?

在動漫《蠟筆小新》中,5 歲的小新常因為發音錯誤,在大人面前鬧出笑話。現實生活中,學齡前兒童適逢口語發音逐漸成熟的階段,有哪些發音類型最容易出錯?哪些聲調組合的錯誤率最高?為了分析兒童語音習得的軌跡,中央研究院語言學研究所曾淑娟研究員,展開以語料庫為本的兒童語音評估研究,成果可用於設計評估兒童語言發展的指標、訓練自動語音評估 AI 模型,協助篩檢可能有語言發展問題的孩子。
圖|iStock
圖|iStock

兩歲的小寶拉著媽媽的衣襬,淚眼汪汪地喊:「馬迷,ㄉㄨˋㄉㄨˋ痛痛……」媽媽心頭一驚,立刻蹲下焦急觀察孩子。「是吃多了嗎?還是腸胃炎?糟了得掛急診!」抱起小寶就往門口衝。

「等等!」爸爸忍笑攔住,指指地上。媽媽一愣,低頭一看──小寶最愛的兔娃娃掉在地上,耳朵還被椅子壓住。媽媽哭笑不得,輕輕抱住小寶:「原來是兔兔痛痛啊!」

這種溫馨又好笑的場景,對有孩子的家長來說一定不陌生,幼兒學說話,總免不了鬧出雞同鴨講的趣事。語言學習並不是「叮」一聲就開啟的技能,孩子剛開始只會咿咿呀呀的無意義發音,慢慢可以說出不太標準但能理解的句子,經過不斷嘗試與修正,最終才越來越接近正確發音。

這個過程涉及多種因素,包括聽力發展、認知能力和發音肌肉的控制;此外,所學語言在聲調與發音上的細微差異,也會影響學習進展。

對此,中研院語言學研究所曾淑娟研究員進行了一項「臺灣華語 3 至 6 歲兒童語音習得跨域研究」,以語料庫語言學嚴謹的研究方法,建立兒童語音標記數據,並進行深入分析,揭示各年齡層各種語音現象的習得順序與狀況。

曾淑娟表示,透過「兒童語音習得語料庫」的建立,可以歸納出幼兒學說話時最容易出錯或發音不準的地方,藉以制訂語音發展的常模。有了常模對照,就有精準依據可以建立自動語音評估工具,讓一般大眾可以很快瞭解孩子的發音與常模相比是否有落後,並觀察成長過程中的語音習得歷程。

曾淑娟研究員,目前擔任中研院語言學研究所副所長、數位語言資源工作室召集人。專長為語料庫與計算語言學、對話結構分析、語音學及兒童語音研究。 圖|研之有物
曾淑娟研究員,目前擔任中研院語言學研究所副所長、數位語言資源工作室召集人。專長為語料庫與計算語言學、對話結構分析、語音學及兒童語音研究。
圖|研之有物

面面俱到的「中研院兒童平衡詞表」

兒童語音習得語料庫的建立,說起來容易,實際執行可是難關重重,第一關就是如何選定語料。如果讓小朋友自由發揮,隨機的語料將過於雜亂,既難以分析,也不易用來建立模型。因此,研究的第一步,就是要制訂一組標準化的「詞表」,讓孩子照著唸,以確保數據的可比性。

曾淑娟團隊開發的中研院兒童語音平衡詞表 圖|研之有物(來源|曾淑娟)
曾淑娟團隊開發的中研院兒童語音平衡詞表
圖|研之有物(來源|曾淑娟)

最終定案的兒童語音平衡詞表可是大有學問。曾淑娟長年進行成人對話語音語料庫研究,發表授權多項資料庫,她以 60 萬字口語對話建立的中文音節結構組合頻率表為基礎,選取簡單、具體、生活化的詞彙,畢竟要讓小朋友順利唸讀,太冷僻艱澀可不行。

而真正的門道,在於這些詞彙的音節結構、聲調分布及語意範圍,全都經過精心設計,以達到最佳平衡。

對語言學不熟悉的讀者,這邊可能會冒出問號:聲調?音節結構?那是什麼?

簡單來說,「聲調」就是我們學注音時的一、二、三、四聲,例如「媽、麻、馬、罵」,僅僅是音高變化,就能讓同樣音節結構的字表達出完全不同的意思。有興趣的讀者可以欣賞語言學家趙元任寫的〈施氏食獅史〉,這篇趣文就把聲調特性玩到了極致。

此外,一個漢字就是一個音節,傳統音韻學將字的「音節結構」拆解為「聲母 + 韻母」,類似臺灣學生從小學習的注音符號系統。不過進行語言學研究時,是採用國際音標表示音韻系統,進一步將音節結構拆解成四個部分:

聲母對應的是「起始輔音(C, Consonant)」,韻母則可以區分為介音(G, Glide)、元音(V, Vowel)和鼻音韻尾(N, Nasal Coda),也就是「C-G-V-N」的架構。在後續的聲學分析及語音評估學習模型中,CGVN 結構可連結個別的「音」,也是表示「語音內容」概念的重要基石。

「窗」的音節結構可拆分成「C-G-V-N」架構 圖|研之有物
「窗」的音節結構可拆分成「C-G-V-N」架構
圖|研之有物

了解「聲調」和「音節結構」後,再回頭看這份語音平衡詞表,就更能體會當中的精妙平衡。詞表中包含 70 個詞彙(8 個為三字詞,其餘為雙字詞),在「聲調」上,詞表覆蓋了所有雙音節聲調組合,也就是所有一、二、三、四聲的搭配組合都找得到。

在「音節結構」上,所有聲母在字詞中的各個位置也至少出現一次。以聲母 ㄅ 為例,它既出現在第一音節(如「白雲」),也出現在第二音節(如「嘴巴」),確保能全面檢測不同發音情況。

此外,詞彙的語意分布也經過精心挑選,儘量涵蓋不同的生活領域,讓詞表更符合幼兒的語言學習環境。這些詞彙的巧妙設計,也用於進行中的兒童語音收集計畫。

曾淑娟談到,雖然這份詞表有許多優點,但還不足以表達日常對話蘊含的起承轉合、語調、流暢度等個人特徵,還需要將研究素材推進到自然口語,才能貼近語言是用來表達概念、讓人理解語意的核心目標。

圖為中研院語言所自行開發的 APP,透過看圖唸語句的方式,錄下臺灣各年齡層華語使用者的語音,協助研究人員進行語音聽感評估、聲學分析研究,建立自動語音清晰度、正確性評估模型。圖|中研院語言學研究所
圖為中研院語言所自行開發的 APP,透過看圖唸語句的方式,錄下臺灣各年齡層華語使用者的語音,協助研究人員進行語音聽感評估、聲學分析研究,建立自動語音清晰度、正確性評估模型。
圖|中研院語言學研究所

不可能的任務!兒童語料收集的艱辛幕後

詞表設計如此煞費苦心,目的就是為了確保收集到的語料品質。但要從小朋友那邊收集語料,談何容易!製作詞表時,研究者只需要跟資料打交道;但收集語料時,你卻得搞定一大群花樣百出的孩子。

資料庫在國際會議上發表,得到的回饋都是 Amazing!因為收集這種規模的高品質標記數據,幾乎是不可能的任務。

研究團隊將詞表中的詞彙畫成圖片,錄下小朋友看圖唸出的詞彙發音。曾淑娟回憶:「這看似簡單的動作,實際執行起來卻狀況百出。有的孩子怕生、緊張,得百般安撫;也有架子很大的小王子、小公主,不肯乖乖配合;有調皮搗蛋、天馬行空、也有半途而廢的。」

語言專家畢竟不是育兒專家,多虧兩位經驗豐富的研究助理參與協助,才辛苦擺平這項艱難任務。

除了人的問題,環境也是一大挑戰。學校通常沒有專業錄音室,研究團隊只能見機行事,有時擠在儲藏室、有時屈就體育室。錄音過程還會有干擾不斷的環境音、孩子們的嬉鬧、課堂鐘響,甚至突如其來的廣播。每一次雜音出現,都意味著錄音被迫中斷,只能耐心等待,再次來過。

研究團隊將詞表中的詞彙畫成圖片,錄下小朋友看圖唸出的詞彙發音。 圖|曾淑娟提供
研究團隊將詞表中的詞彙畫成圖片,錄下小朋友看圖唸出的詞彙發音。
圖|曾淑娟提供

終於,經過團隊多年的努力與無比的耐心,總算成功收集到一千多筆錄音資料。為了確保研究的精確性,部分數據仍需篩選過濾,最終留下 798 筆符合標準的語料,真的是筆筆皆辛苦!

臭奶呆可愛發音來襲!精細的語音標記工作

語料收集完畢後,下一步便是進行物理訊號及語音內容的標記、發音準確度的分級判讀和資料庫格式的整理。與成人語料相比,幼兒語料的處理更加困難,畢竟孩子們還在學習階段,發音不夠精準是很正常的現象。

研究團隊使用自動化的語音對齊工具 Sinica Phone Aligner,搭配人工驗證取得對應語音內容的聲學訊號進行分析。也使用 Assessing Speech 系統,分析並計算各語言學層級發音錯誤的比例。

除了機器計算外,還需要進行人工操作的「聽感標記」,這項工作極度仰賴標記人員的細心與判斷力。每筆語料,標記人員都需反覆聆聽,根據聲調(一二三四聲)、音節結構(CGVN)等標準,判定正確性與可接受性。

標記工作不僅是簡單的對錯判定,還要記錄「怎麼錯的」,是個別的音錯了?還是聲調錯了?也有可能個別聽的時候,有些音雖然發得不準確;但幾個字結合在一起連讀時,又可以很明顯的表達語意。

有時,許多影響發音的背景資訊也需一併標註,例如孩子缺牙,可能導致發音不清。這當中存在不少模糊地帶,非常考驗標記人員的共識凝聚。曾淑娟團隊採用嚴謹的語料庫標記程序,每筆資料都經過兩人以上的標記驗證,確保據以衍生的後續研究立基是穩固的。

採訪過程中,我們實際聆聽了幾筆「不夠正確」的語料,小朋友稚嫩又臭奶呆的發音實在可愛,但要對這些發音的正確與否做出一致判定,卻比想像中困難。連採訪團隊內部也對標記結果產生不同見解,可見這項工作十足的挑戰性。

聽感標記過程圖|研之有物
聽感標記過程
圖|研之有物

從數據勾勒兒童的語言學習軌跡

針對這五萬多個詞(798 位兒童 × 70 個詞)的標記判讀結果,曾淑娟團隊進行了多層次的分析,以年齡與發音正確率的關聯性,成功建立語音習得發展的常模。

研究顯示,在「聲調」學習上,3 歲兒童的發音正確率已相當高;在「詞語表意」與「音節結構」方面,則觀察到明顯的年齡差異:從 3 歲至 6 歲,正確率隨著年齡穩步提升,形成一條清晰的學習曲線。

3 至 6 歲兒童的各種發音正確率與可接受率,隨著年齡增長而提升。圖|研之有物(來源|曾淑娟)
3 至 6 歲兒童的各種發音正確率與可接受率,隨著年齡增長而提升。
圖|研之有物(來源|曾淑娟)

透過語料分析找出這些發展模式,有助家長、教師或語言治療師判斷孩子的語言發展是否符合預期,需不需要及早介入語言訓練或治療。

此外,若能進一步釐清「哪些發音類型最容易出錯」,則有助於更精準地對症下藥,提供有效的學習與治療策略。因此,研究團隊針對「發音錯誤類型的分布」進行分析,找出某些錯誤率特別高的語音類型。

例如在「聲母」發音方面,兒童最常見的問題是捲舌與不捲舌的混淆,詞表中的「壽司」成為錯誤率最高的詞彙,有的小朋友會唸成壽「師」或「嗽」司。

而在「聲調」方面,研究發現「二、三聲」的錯誤率明顯高於「一、四聲」,尤其當「三聲+二聲」組合出現在雙音節詞句時(如詞表中的「恐龍」、「草莓」),錯誤率最高,顯示當詞語的末音節需要上升時,發音穩定性較低。

哪些發音類型最容易出錯? 圖|研之有物(圖片版權|中央研究院)
哪些發音類型最容易出錯?
圖|研之有物(圖片版權|中央研究院)

除了直接分析發音錯誤,研究團隊還企圖進一步拉近「人類」與「機器」的距離,將標記人員對語音的聽感判斷,與聲學訊號的物理特徵進行交叉比對,試圖建立與人耳聽感一致的兒童語音評估模型。

例如在日常對話中,許多發音會因為連音、省略或含糊而沒那麼準確,像是「你知道嗎?」聽起來會像「你ㄓㄠˋ嗎」。研究團隊曾在成人研究中,將這類「變形」的發音,以音韻規則的減縮將物理訊號歸類,增進語音辨識的效能。

但聽感與聲學訊號的差別在於,人是透過語言體系及個人經驗去解讀語音,如何讓自動語音評估系統除了依賴聲學訊號,還可以更人性的給出評分,是團隊努力的目標。

從數學到語言學的學術之路

曾淑娟分享將實驗數據視覺化的構想,目前正在發展自動語音評估 AI 模型,以簡潔易懂的圖表記錄兒童的語音習得歷程。圖|研之有物
曾淑娟分享將實驗數據視覺化的構想,目前正在發展自動語音評估 AI 模型,以簡潔易懂的圖表記錄兒童的語音習得歷程。
圖|研之有物

曾淑娟最初就讀的是清大數學系,從基礎科學研究跨到追求應用的計算語言學,看似衝突,但其實一點都不奇怪。

數學和語言學都是在尋找規律和邏輯,兩者的差距比你想像得小。

對曾淑娟來說,從複雜事物中找出規律,是很有成就感的事,這也讓她愛上了語言學,致力於建立各種模型,解析溝通的奧秘。

曾淑娟談到,有一部分的自己喜歡接觸人群;但也有另一部分,喜歡待在只有自己的小空間裡。這種人格上的二元性,跟她的語言學研究之路不謀而合。收集語料、觀察語言使用時,必須與人互動;但當進入語音分析與數據處理階段,又是一個純粹與自己對話的世界。

「不過,如果數據對不上,那可真是研究裡最痛苦的時刻。」曾淑娟笑著回憶。有一次,在上萬筆數據中,發現有三筆資料不匹配,雖然只是極小比例,但為了確保研究的嚴謹性,還是得大海撈針、層層回溯比對,有時甚至得刪掉重來。這種交叉驗證與反覆確認的過程,既枯燥又考驗耐心,卻是語言學研究的必經之路。

博士論文研究德語,回臺後卻轉入漢語研究,這是一場「歸零式」的轉換嗎?曾淑娟並不這麼認為:「語言學的基本理論是相通的,雖然不同語言結構的特色各異,但理解語言運作的方式,仍然有許多共通點。」

從數學到語言學、從德語到漢語,曾淑娟的學術旅程,表面上充滿了跳躍與顛覆,但她始終悠然自得。因為她總能在異中求同,在複雜變化的世界裡,找到規律與秩序。

「走到哪裡,就在哪裡找到有趣的問題。」這種對未知的開放與好奇,正是曾淑娟研究的動力,也是她學術人生的底色。

2025-03-13

採訪撰文|黃楷元
責任編輯|田偲妤
美術設計|蔡宛潔

延伸閱讀
  • 曾淑娟個人網頁
  • 中研院中文口語語料庫檢索系統(經申請可使用:兒童語音習得語料庫、兒童語音語料庫、台灣華語社會語音語料庫、中文對話語音語料庫)
  • 曾淑娟(2024)。〈台灣華語 3 至 6 歲兒童語音習得跨域研究〉,《中央研究院語言學研究所成所二十週年慶祝論文集》,頁 475-502。
  • Tseng, Shu-Chuan. 2019. ILAS Chinese spoken language resources. In the Proceedings of LPSS 2019–the third International Symposium on Linguistic Patterns in Spontaneous Speech, pp. 13-20. Taipei.