Common Voice Scripted Speech 25.0 - Taiwanese (Minnan)
License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 3/22/2026
Format: MP3
Size: 467.66 MB
Share
Description
A collection of read speech recordings in Taiwanese (Minnan) (台語).
Specifics
Considerations
Restrictions/Special Constraints
None provided.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
台語 — Taiwanese (Minnan) (nan-tw)
Mozilla Common Voice cv-corpus-25.0-2026-03-09 Taiwanese (Minnan) (nan-tw) 文本錄音 語料集。
本語料集包含 299 位錄音者,共 23.87 小時的錄音資料,其中 21.78 小時已驗證(經另二名參與者確認),來自 27,277 條文本句。
語言
臺灣話(白話字:Tâi-oân-ōe;臺羅:Tâi-uân-uē, nan-tw),又稱為台語/臺語(Tâi-gí)或臺灣閩南語(Taiwanese Hokkien),通行於臺灣及澎湖群島,中華民國(臺灣)國家語言之一。
請特別注意:本語音語料集為「漢字——語音資料集」,文本語料以漢字為主,同時括號標注台羅或白話字參考發音。
方言/變體(Variants)
於 v23.0 版本開始,Common Voice 台語版本允許錄音與文本貢獻者選擇(非必選)以下書寫系統變體(Variant)。但目前文本語料仍以兩者混合(非特定系統)為大宗。
白話字(POJ) (
pehoeji)台羅(TL) (
tailo)
如欲協助更新現有語料,請往下到 Community 欄目與我們聯繫。
| Code | Variant | Clips | Speakers |
|---|---|---|---|
| nan-TW-tailo | 台羅 (TL) | 233 (0.7%) | 5 (1.7%) |
| nan-TW-pehoeji | 白話字 (POJ) | 45 (0.1%) | 5 (1.7%) |
腔調(Accents)
| Code | Accent | Clips | Speakers |
|---|---|---|---|
| pingtung_county | 出生地:屏東縣 | 839 (2.6%) | 2 (0.7%) |
| changhua_county | 出生地:彰化縣 | 30 (0.1%) | 3 (1.0%) |
| yunlin_county | 出生地:雲林縣 | 10 (0.0%) | 1 (0.3%) |
| taipei_city | 出生地:臺北市 | 10 (0.0%) | 2 (0.7%) |
| new_taipei_city | 出生地:新北市 | 10 (0.0%) | 1 (0.3%) |
| yilan_county | 出生地:宜蘭縣 | 5 (0.0%) | 1 (0.3%) |
| chiayi_county | 出生地:嘉義縣 | 5 (0.0%) | 1 (0.3%) |
| other_county | 出生地:其他 | 5 (0.0%) | 1 (0.3%) |
| taichung_city | 出生地:臺中市 | 5 (0.0%) | 1 (0.3%) |
| - | Other | 26,293 (81.1%) | 75 (25.1%) |
統計資料
本資料集包含以下自我申報的年齡與性別分布。每個表格下方會顯示涵蓋率摘要。
性別
錄音者自行宣告的性別資訊。表格顯示錄音數與錄音者數及其百分比。未宣告性別的錄音者列為「未指定」。破折號(-)表示零。
| Code | Gender | Clips | Speakers |
|---|---|---|---|
| male_masculine | Male, masculine | 20,079 (61.9%) | 63 (21.1%) |
| female_feminine | Female, feminine | 3,580 (11.0%) | 23 (7.7%) |
| transgender | Transgender | - | - |
| non-binary | Non-binary | - | - |
| do_not_wish_to_say | Prefer not to say | 10 (0.0%) | 1 (0.3%) |
| - | Unspecified | 8,757 (27.0%) | 235 (78.6%) |
Gender declared: 23,669 of 32,426 clips (73.0%), 64 of 299 speakers (21.4%)
年齡
錄音者自行宣告的年齡層資訊。表格顯示錄音數與錄音者數及其百分比。未宣告年齡的錄音者列為「未指定」。破折號(-)表示零。
| Code | Age | Clips | Speakers |
|---|---|---|---|
| teens | Teens | 563 (1.7%) | 7 (2.3%) |
| twenties | Twenties | 16,313 (50.3%) | 35 (11.7%) |
| thirties | Thirties | 4,938 (15.2%) | 30 (10.0%) |
| fourties | Fourties | 5,336 (16.5%) | 21 (7.0%) |
| fifties | Fifties | 379 (1.2%) | 4 (1.3%) |
| sixties | Sixties | 767 (2.4%) | 4 (1.3%) |
| seventies | Seventies | - | - |
| eighties | Eighties | - | - |
| nineties | Nineties | - | - |
| - | Unspecified | 4,130 (12.7%) | 227 (75.9%) |
Age declared: 28,296 of 32,426 clips (87.3%), 72 of 299 speakers (24.1%)
資料分群(用於模型訓練)
Clip buckets
| Bucket | Clips |
|---|---|
| Validated | 29,587 (91.2%) |
| Invalidated | 628 (1.9%) |
| Other | 2,211 (6.8%) |
Training splits
| Split | Clips |
|---|---|
| Train | 11,507 (38.9%) |
| Dev | 5,999 (20.3%) |
| Test | 6,423 (21.7%) |
Training split coverage: 23,929 of 29,587 validated clips (80.9%)
本資料集包含 29587 筆已驗證、628 筆未通過驗證及 2211 筆待審查的片段。片段平均長度為 2.651 秒。
文本語料
此錄音集大部分文本語料整理於:MozTW CC0 語料庫,主要來自 MozTW / g0v 社群個別參與者。
由於目前缺乏公共授權(無已知授權限制)的台語「句子」文本語料,Common Voice 台語錄音目前以「單詞」為大宗。
我們亟需更多「日常生活用句」,歡迎捐贈您以台語書寫的作品。請參考下方社群頻道資訊與我們聯繫。
Validated sentences: 26,907
| Category | Count |
|---|---|
| Unvalidated sentences | 370 |
| Pending sentences | 98 |
| Rejected sentences | 272 |
| Reported sentences | 223 |
本語料庫包含 27,277 條句子:26,907 條已驗證、370 條未驗證(98 條待審查、272 條被拒絕),另有 223 條被回報需審查。
樣本
以下為五個隨機選擇的錄音句子樣本
皇帝菜(hông-tè-tshài)
敦化和平路口(Tun-huà Hô-pîng Lōo-kháu | Tun-hòa Hô-pêng Lō͘-kháu)
葉宜津(Ia̍p Gî-tin)
公費接種(kong-huì tsiap-tsìng)
我欲去食晝(guá beh khì tsia̍h-tàu)
來源
文本語料由 Mozilla 台灣社群(moztw.org)、g0v 社群、及其他開放原始碼運動志工參與者共同建立。
早期的台語語料主要來自「2016-itaigi華台對照典」。請參考資料來源與授權了解原始資料出處。
錄音者主要為來自台灣的個別志工參與者。
| Source | Sentences |
|---|---|
| sentence-collector | 23,598 (87.7%) |
| https://meta.wikimedia.org/wiki/Kî-thaⁿ_oa̍h-tāng | 1,286 (4.8%) |
| https://github.com/moztw/cc0-sentences/commit/4654afd497b985f71f207c8cdf76deda59d70acf | 815 (3.0%) |
| ++ | 508 (1.9%) |
| Other | 700 (2.6%) |
文本領域
由於目前缺乏公共授權的「句子」資料,Common Voice 台語語料目前仍以「單詞」為大宗。
我們亟需更多「日常生活用句」,歡迎捐贈您以台語書寫的作品。請參考 社群頻道資訊 與我們聯繫。
| Code | Domain | Clips | Speakers |
|---|---|---|---|
| general | General | 802 (2.5%) | 29 (9.7%) |
| agriculture_food | Agriculture and Food | 4 (0.0%) | 4 (1.3%) |
| automotive_transport | Automotive and Transport | - | - |
| finance | Finance | - | - |
| service_retail | Service and Retail | 2 (0.0%) | 2 (0.7%) |
| healthcare | Healthcare | 1 (0.0%) | 1 (0.3%) |
| history_law_government | History, Law and Government | - | - |
| media_entertainment | Media and Entertainment | - | - |
| nature_environment | Nature and Environment | 55 (0.2%) | 23 (7.7%) |
| news_current_affairs | News and Current Affairs | - | - |
| technology_robotics | Technology and Robotics | - | - |
| language_fundamentals | Language Fundamentals | 55 (0.2%) | 23 (7.7%) |
建議後處理流程步驟
因為句子、單詞所標示的羅馬字為參考用,且 a) 混用台羅與白話字系統,b) 也未能標出所有腔調的發音,顧無法作為實際錄音者發音之對應標注。
我們建議使用前先行移除用()包夾的參考發音,僅取用漢字部分。
欄位
片段
每個 tsv 檔案的每一列代表一個音聲片段,包含以下資訊:
client_id- 使用者的雜湊 UUIDpath- 音檔的相對路徑text- 音檔的預期轉錄文本up_votes- 認為音檔與文本相符的人數down_votes- 認為音檔與文本不符的人數age- 錄音者的年齡1gender- 錄音者的性別1accents- 錄音者的腔調1variant- 語言的變體1segment- 若句子屬於自訂資料集分群,會列在此欄位prompt_upvotes- 句子提示收到的贊成票數prompt_reports- 句子提示收到的檢舉數is_edited- 片段的轉錄是否已被編輯
validated_sentences.tsv
validated_sentences.tsv 檔案中的每一列代表文本語料庫中一條已驗證的句子:
sentence_id- 句子的唯一識別碼sentence- 句子文本variant- 該語言的變體sentence_domain- 句子所屬的領域source- 句子的來源is_used- 該句子是否仍在流通中供錄製使用clips_count- 為該句子錄製的片段數量
unvalidated_sentences.tsv
unvalidated_sentences.tsv 檔案中的每一列代表文本語料庫中一條未驗證的句子:
sentence_id- 句子的唯一識別碼sentence- 句子文本variant- 該語言的變體sentence_domain- 句子所屬的領域source- 句子的來源up_votes- 句子獲得的贊成票數down_votes- 句子獲得的反對票數status- 句子的目前狀態(pending或rejected)
參與
社群連結
Mozilla 台灣社群 (MozTW) Common Voice 專案網站: https://moztw.org/common-voice/
任何問題與建議、協助推廣、捐贈語料,或其他合作需求,請透過以下社群頻道與我們討論:
討論
貢獻
捐出你的句子 - 如您有意願捐出你擁有的文本語料(例如您的個人創作)供參與者錄音,請先聯絡 Irvin ( irvin@moztw.org )或於以上 Line / Telegram 群組討論。
誌謝
資料表編撰
Irvin Chen (MozTW 社群聯絡人)
Dennis Chen (Common Voice Community Facilitator, Wikimedia Taiwan)
授權
此資料集以 創用 CC 公眾領域貢獻宣告 (CC-0) 釋出至公共領域。 下載這個資料集,即代表你同意不對資料集中的個別參與者進行識別。
Footnotes
如需年齡、性別及腔調選項的完整清單,請參閱 demographics spec。僅在錄音者同意提供時才會揭露這些資訊。 ↩ ↩2 ↩3 ↩4