[资料] 胡长松的台语小说语料库

楼主: CCY0927 (只是个暱称罢了)   2025-03-16 22:18:05
https://www.facebook.com/share/p/15B6hLjxLU/
【胡长松的台语小说语料库已全数公开】
各位朋友,我在此正式公告,我们团队总算完成了公开语料库所需的技术准备工作,并在
3/14日,已经把所有我本人的台语小说、超过100万字的语料库公开出来,提供给AI开源
训练专案和学术专案使用。在说明底下的技术方案之前,我要先感谢我所任职的公司台湾
大哥大资讯长、同时也是IMA理事长蔡祈岩先生,充分支持及授权给我运用IMA的资源及技
术团队来布建这个方案,除了感谢,还有感动!
我的语料目前已经转成了AI训练所需的语料库格式(此格式并不适于人的阅读,且可视作
者要求进行结构重组),3/14日起,全数挂载在IMA (中华民国资讯经理人协会)的
Hugging Face语料库,采取【Creative Commons CC具名授权,申请后提供存取】的管理
方式提供需要者使用,目前限非商业的AI训练专案和学术专案来申请。各界朋友,若您有
使用我的小说语料库的需要,操作说明如下:
1. 请点击
https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ots
2. 您将需要登入Hugging Face帐号
3. 在“Dataset Card”页签点击“申请权限”按钮
4. 提交申请后,状态会变成“等待审核中”,我们会根据取得的帐号联系方式和您联系,
并进行核准程序
5. 审核通过后,您会收到电子邮件通知
6. 收到通知后,请再次打开前述语料库页面,就可以看到并存取完整资料集
另外,针对台语文学作家有志,这是咱欲予未来AI有法度读台语的“上起头”的行动,假
使你若有认同,邀请咱做伙用慷慨、旷阔的心来加入这个队阵。假使你若愿意,我嘛欢喜
用仝款的技术方案来支持你的行动,阮的团队会用仝款的方式、经过你的授权,共你上优
质的文字,照你佮意的方式(比如先拍碎、拍乱),囥伫我参与管理的NPO IMA的语料库
,提供予非商业的AI训练专案佮学术专案使用。欢迎你佮我连络!
各族母语作家,若您有同样的心志和技术需求,也都欢迎和我联系!
https://i.imgur.com/5JVLW7i.png
https://i.imgur.com/qkKPTBI.png
作者: evenme (我)   2025-03-17 14:39:00

Links booklink

Contact Us: admin [ a t ] ucptt.com