※ 引述《chadlu (chadlu)》之铭言:
: 各位版友好:
: 小弟从事笔译工作
: 目前想针对不同领域的中英文本建立专属的平行语料库
: 作为之后的查询及参考之用
: 但因为本身对语料库这块还不是很了解,所以想跟各位请教以下几个问题:
: 1. 常见的Antconc是否可用于建立平行语料库? 若不行是否有其他推荐的软件?
: 2. 有没有软件可以自动撷取双语网站中的中英文语料?
: 3. 撷取完的文本该如何对齐(Alignment)?
: 以上,谢谢各位~
: PS. 若有相关的参考书籍或资料也欢迎跟我说 Thanks :)
不是很了解你的问题。拿平衡语料库做例子好了。
如果你跟词库购买平衡语料库,你拿到的是三百多
个xml档。当然,语料有tag并且以xml格式标好。
简单说,语料库就是一堆文章的集合。所以,回到你
的问题。什么软件可以建语料库?Notepad ++就可以
了吧.... 那是一个编写程式用的纯文字编辑器....
自动撷取双语网站?没有听过有在提供类似软件,不
过你可以自己写爬虫去抓.... 如何对齐?看你用什么
标准对齐啊.... 也可以自己写程式去做...
老实说,连keyword search或是concordancer这些很
常见的功能都没有免费软件了,语料库嘛... 恐怕要
靠自己了...