[问卦] 有没有语音资料都被大公司收走的八卦

楼主: sdf611097 (犹若洗苦)   2018-05-12 15:58:08
==本篇留言将蒐录到Common voice中,如果不想被收录,推文开头请加#==
现在的语音资料都被大公司所掌握,如某A、某F、某G
现在要做任何语音相关的研究或是新创公司要做研发
都只有很有限的语音资料
Common voice https://voice.mozilla.org/en
这个project的目标是提供一个没有版权规范的
语音及文字对应的数据库(现阶段只有英文)
要贡献声音的方式就是连上网页
照叙述点做对应的事情
像是他会给你一个句子,你点录音后,就讲对应的话
也有地方可以验证收音后的声音结果
现在开始搜集在网页上显示(英文以外),以供他人录音用的句子
英文以外的录音暂时还没办法
如果有兴趣的人可以参考以下连结的说明
https://voice-sprint.mozilla.community/
关于搜集的句子的一些规则在以下的连结
https://voice-sprint.mozilla.community/contributing/
所要搜集的句子的规则为下列几点
来源:核心概念为,是不受版权规范,CC0或是Public Domain Mark
1. 你自己写的句子
2. 现有的句子,像是有一些文章有说这篇文章是公开授权、CC0、PDK
句子的规则:(尽量遵守)
1. 这个句子在正常的说话速度下,大约5~10秒
2. 可以有“少量”的一两个字的句子,如早安
3. 如果可以,尽量用多一点不同的词汇
4. 可以有任何看得懂意义的标点符号,像是?及!,因为这牵扯到阅读者的语气
5. 特别的语言标记是好的(ex.â, ü, ß),不过中文没这种符号,可以忽略
6. 尽量使用合适的名词,比如说不要用北车,请用台北车站(理性勿战)
7. 数字用阿拉伯数字或中文叙述都OK
个人补充
这个东西应该是要拿来给语音助理等服务的训练用的
尽量提供日常生活的对话,尽量不要用文言文
关于上传你的句子(一个换行表示一句)
https://voice-sprint.mozilla.community/upload/
Nickname就是你的暱称(Gold Plus Five, Taipei)
Email (required) 就是你的email
Enter your sentences here (max 5,000 characters).
这边就是你不要填超过5000个字
如果是100句以下可以直接贴在网页的输入框内
如果你有很多句,可以提供你的公开连结(每个人都可以看得到的)
网页上提供了一种方法
https://pastebin.com/
你把你的句子放到New Paste上
然后点下面的Create New Paste
你就可以产生一个有你的句子的连结
例如https://pastebin.com/L8qTM4rX
Language (required) 填语言
如果是繁体中文的话,填zh-TW(看得懂的其实都可)
Link to the source of the sentences
如果你的句子不是自己的
请输入这个句子是怎么来的
I certify that I either created these sentences,
or got them from a public domain source (required)
这个勾勾是
“我证实我提供的句子是自己创照的或是从public domain source来的”
submit后就送出了
以下开放偷告白,阐述台湾价值,分享个人言论,抱怨499排不到
==本篇留言将蒐录到Common voice中,如果不想被收录,推文开头请加#==

Links booklink

Contact Us: admin [ a t ] ucptt.com