Common Voice Scripted Speech 25.0 - Rukai
License:
CC0-1.0
Steward:
Common VoiceTask: ASR
Release Date: 3/22/2026
Format: MP3
Size: 213.64 MB
Share
Description
A collection of read speech recordings in Rukai (Drekay).
Specifics
Considerations
Restrictions/Special Constraints
None provided.
Forbidden Usage
It is forbidden to attempt to determine the identity of speakers in the Common Voice datasets. It is forbidden to re-host or re-share this dataset.
Processes
Intended Use
This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.
Metadata
Drekay — Rukai (dru)
Mozilla Common Voice cv-corpus-25.0-2026-03-09 Rukai (dru) 文本錄音 語料集。
本語料集包含 20 位錄音者,共 10.55 小時的錄音資料,其中 10.36 小時已驗證(經另二名參與者確認),來自 4,344 條文本句。
語言
魯凱語(Drekay / Rukai, dru)、茂林語(Teldreka)、萬山語('Oponoho),臺灣原住民語言
本語料集主要包含台灣維基媒體協會 Wikimedia Taiwan 「Common Voice 原住民族語錄音補助計畫」錄音成果,含排灣經典工作室協助招募的魯凱族,以及茂林及萬山語社群總計 20 位錄音者,共 11 小時的錄音資料,其中 11 小時已驗證(經另二名參與者確認)。
計畫錄音範圍為十二年國教課程原住民族語文教材第 1 至 9 階課文文本。
方言/變體(Variants)
本語音語料庫包含以下方言語群
東魯凱語 Eastern Rukai (
taromak)霧臺魯凱語 Wutai Rukai (
veday)大武魯凱語 Dawu Rukai (
labuane)萬山語 Oponoho (
oponoho)茂林語 Teldreka (
teldreka)
| Code | Variant | Clips | Speakers |
|---|---|---|---|
| dru-veday | Ngudradreadrekadhane ka Veday (霧臺魯凱語) | 2,108 (31.5%) | 4 (20.0%) |
| dru-oponoho | ʼakoʼoponohae (萬山語) | 2,096 (31.3%) | 5 (25.0%) |
| dru-taromak | Ngodradrekai ka so Taromak (東魯凱語) | 1,761 (26.3%) | 6 (30.0%) |
| dru-labuane | Ngudradreadrekadha ka Tailailabuwana (大武魯凱語) | 471 (7.0%) | 3 (15.0%) |
| dru-teldreka | teldredrekane (茂林語) | 256 (3.8%) | 1 (5.0%) |
統計資料
本資料集包含以下自我申報的年齡與性別分布。每個表格下方會顯示涵蓋率摘要。
性別
錄音者自行宣告的性別資訊。表格顯示錄音數與錄音者數及其百分比。未宣告性別的錄音者列為「未指定」。破折號(-)表示零。
| Code | Gender | Clips | Speakers |
|---|---|---|---|
| male_masculine | Male, masculine | - | - |
| female_feminine | Female, feminine | 823 (12.3%) | 2 (10.0%) |
| transgender | Transgender | - | - |
| non-binary | Non-binary | - | - |
| do_not_wish_to_say | Prefer not to say | 5,854 (87.5%) | 16 (80.0%) |
| - | Unspecified | 16 (0.2%) | 3 (15.0%) |
Gender declared: 6,677 of 6,693 clips (99.8%), 17 of 20 speakers (85.0%)
年齡
錄音者自行宣告的年齡層資訊。表格顯示錄音數與錄音者數及其百分比。未宣告年齡的錄音者列為「未指定」。破折號(-)表示零。
| Code | Age | Clips | Speakers |
|---|---|---|---|
| teens | Teens | - | - |
| twenties | Twenties | - | - |
| thirties | Thirties | - | - |
| fourties | Fourties | 823 (12.3%) | 2 (10.0%) |
| fifties | Fifties | - | - |
| sixties | Sixties | - | - |
| seventies | Seventies | - | - |
| eighties | Eighties | - | - |
| nineties | Nineties | - | - |
| - | Unspecified | 5,870 (87.7%) | 19 (95.0%) |
Age declared: 823 of 6,693 clips (12.3%), 1 of 20 speakers (5.0%)
資料分群(用於模型訓練)
Clip buckets
| Bucket | Clips |
|---|---|
| Validated | 6,576 (98.3%) |
| Invalidated | 116 (1.7%) |
| Other | 1 (0.0%) |
Training splits
| Split | Clips |
|---|---|
| Train | 1,074 (16.3%) |
| Dev | 933 (14.2%) |
| Test | 957 (14.6%) |
Training split coverage: 2,964 of 6,576 validated clips (45.1%)
本資料集包含 6576 筆已驗證、116 筆未通過驗證及 1 筆待審查的片段。片段平均長度為 5.676 秒。
文本語料
Validated sentences: 3,867
| Category | Count |
|---|---|
| Unvalidated sentences | 477 |
| Pending sentences | 477 |
| Rejected sentences | - |
| Reported sentences | 2 |
本語料庫包含 4,344 條句子:3,867 條已驗證、477 條未驗證(477 條待審查、0 條被拒絕),另有 2 條被回報需審查。
樣本
以下為五個隨機選擇的錄音句子樣本
mokelaata idhae lo ’anokisata?
mani olatadhelrao
’apitigamilraidhe kadhalra’a takali taiki taka’adhailie
Ku kipadradresenge li sanaka manemanemane kivaivay
mwa tauwananenganumi?
來源
錄音文本取自《十二年國教原住民族語文教材》第一至九階課文之族語(羅馬字)內容,經中華民國教育部國民及學前教育署(K-12 Education Administration, Ministry of Education, Taiwan ROC)授權,由台灣維基媒體協會整理後上傳。特別感謝時任教育部政務次長葉丙成協助協調授權事宜。
部分霧台魯凱語(veday)文本,由國⽴台灣⼤學語⾔學研究所《台⼤台灣南島語語料庫》(NTU Corpus of Formosan Languages, Graduate Institute of Linguistics, National Taiwan University)提供。感謝宋麗梅老師協助。
多納語、萬山語、茂林語另包含馬可福音選句各 59 句,感謝財團法人台灣聖經公會(The Bible Society in Taiwan)授權。
在族語專案錄音過程中,我們發現部分文本存在文意不符、單詞或拼寫錯誤等情況。因 Common Voice 系統限制,相關內容未能事先更正仍直接進行錄製。錄音者與教材之間是為共同協作關係,特此說明。
| Source | Sentences |
|---|---|
| Provided by K-12 Education Administration, Ministry of Education, Taiwan ROC | 3,057 (79.1%) |
| Provided by NTU Corpus of Formosan Languages, Graduate Institute of Linguistics, National Taiwan University. https://corpus.linguistics.ntu.edu.tw | 633 (16.4%) |
| 財團法人台灣聖經公會授權 Licensed by The Bible Society in Taiwan | 177 (4.6%) |
文本領域
| Code | Domain | Clips | Speakers |
|---|---|---|---|
| general | General | 10,031 (149.9%) | 20 (100.0%) |
| agriculture_food | Agriculture and Food | - | - |
| automotive_transport | Automotive and Transport | - | - |
| finance | Finance | - | - |
| service_retail | Service and Retail | - | - |
| healthcare | Healthcare | - | - |
| history_law_government | History, Law and Government | - | - |
| media_entertainment | Media and Entertainment | - | - |
| nature_environment | Nature and Environment | - | - |
| news_current_affairs | News and Current Affairs | - | - |
| technology_robotics | Technology and Robotics | - | - |
| language_fundamentals | Language Fundamentals | 1,759 (26.3%) | 7 (35.0%) |
建議後處理流程步驟
請注意:本資料集的統計資料部分(性別與年齡資訊),因維基協會族語錄音專案未登錄相關資訊,故大多數並不正確。
欄位
片段
每個 tsv 檔案的每一列代表一個音聲片段,包含以下資訊:
client_id- 使用者的雜湊 UUIDpath- 音檔的相對路徑text- 音檔的預期轉錄文本up_votes- 認為音檔與文本相符的人數down_votes- 認為音檔與文本不符的人數age- 錄音者的年齡1gender- 錄音者的性別1accents- 錄音者的腔調1variant- 語言的變體1segment- 若句子屬於自訂資料集分群,會列在此欄位prompt_upvotes- 句子提示收到的贊成票數prompt_reports- 句子提示收到的檢舉數is_edited- 片段的轉錄是否已被編輯
validated_sentences.tsv
validated_sentences.tsv 檔案中的每一列代表文本語料庫中一條已驗證的句子:
sentence_id- 句子的唯一識別碼sentence- 句子文本variant- 該語言的變體sentence_domain- 句子所屬的領域source- 句子的來源is_used- 該句子是否仍在流通中供錄製使用clips_count- 為該句子錄製的片段數量
unvalidated_sentences.tsv
unvalidated_sentences.tsv 檔案中的每一列代表文本語料庫中一條未驗證的句子:
sentence_id- 句子的唯一識別碼sentence- 句子文本variant- 該語言的變體sentence_domain- 句子所屬的領域source- 句子的來源up_votes- 句子獲得的贊成票數down_votes- 句子獲得的反對票數status- 句子的目前狀態(pending或rejected)
參與
社群連結
Mozilla 台灣社群 (MozTW) Common Voice 專案網站: https://moztw.org/common-voice/
任何問題與建議、協助推廣、捐贈語料,或其他合作需求,請透過以下社群頻道與我們討論:
2025 族語錄音計畫參與社群:
特別感謝排灣經典葉王靖 kuliw 協助招募與錄音事宜
討論
貢獻
誌謝
資料表編撰
Irvin Chen (MozTW 社群聯絡人)
經費
v23.0 台灣維基媒體協會 Wikimedia Taiwan「Common Voice 原住民族語錄音補助計畫」/ Mozilla Foundation Open Multilingual Speech Fund (OMSF)
授權
此資料集以 創用 CC 公眾領域貢獻宣告 (CC-0) 釋出至公共領域。 下載這個資料集,即代表你同意不對資料集中的個別參與者進行識別。
Footnotes
如需年齡、性別及腔調選項的完整清單,請參閱 demographics spec。僅在錄音者同意提供時才會揭露這些資訊。 ↩ ↩2 ↩3 ↩4