[新闻] 台语语料数据库上线 助本土语发展与AI应用

楼主: CCY0927 (只是个暱称罢了)   2024-08-26 21:18:56
自由 https://news.ltn.com.tw/news/life/breakingnews/4780470
台语语料数据库上线 助本土语发展与AI应用
https://i.imgur.com/penRnw2.png
教育部委托国家教育研究院建置“台湾台语语料库应用检索系统”上线。(资料照)
2024/08/26 14:39
〔记者杨绵杰/台北报导〕教育部委托国家教育研究院建置“台湾台语语料库应用检索系
统”,可查询超过5.6万笔台湾台语语料、收录约1400条教科书词汇,除可供国民中小学
课程设计、教学与评量需求外,供下载的语料库也可作为语音处理或辅助教学的AI开发基
础。
教育部表示,为了全力支持本土语言研究,于去年委托国家教育研究院建置及维护台湾台
语语音语料库相关计画,将语料库的成果加以保存、维护,并增录教育部辞典及卢广诚先
生编《华台对照词典》的例句,延伸建立“台湾台语语料库应用检索系统”。
教育部指出,“台湾台语语料库应用检索系统”包含3大子系统,在语料检索系统的部分
,使用者可查询超过5万6000笔台湾台语语料内容,并取得检索词汇的搭配词、关联词及
部分语音档。
而在教科书词汇检索系统部分,收录约1400条教科书词汇,使用者可查询各版本台湾台语
教科书中出现的词汇及相关资讯,可供教师利用,丰富教学内容。
另在语法点检索系统部分,使用者可查询台湾台语语法点及其说明与例句,有助于深入学
习,并供语言研究者参考。
此外,教育部提到,也开放各界申请下载108年教育部办理台湾台语语音语料库计画成果
,包括语料库、音档及AI工具模型等。内容包含2万6千余句的文字,每句有4至6位发音人
共6种声音来源的音档总计208小时,另有语音处理的AI工具模型。
教育部说明,为大规模保存台湾台语语料,精进既有成果,自前年11月起委请阳明交通大
学办理新一阶段的台湾台语语料库建置计画,预计至后年10月完成,将扩大建置约文字语
料2000万字及口语语料3000小时的语料库,并持续提高语音处理AI工具的实用效能,期望
为本土语言研究、教学资源建置以及语言AI系统的开发贡献更多力量。

Links booklink

Contact Us: admin [ a t ] ucptt.com