[请益]请问中文,无语义的二字词频资料哪儿有?

楼主: ddqueen (ddqueen)   2018-07-20 22:24:26
大家好,
我知道中研院的“搜词寻字”可以找到中文的词频资料。如下网站
http://words.sinica.edu.tw/sou/sou.html
可是我心血来潮,想要找“无语义”的二字词的词频资料,请问哪儿会有呢?
在中研院的“搜词寻字”的网站中,可以找二字词的词频。
可是“二字词”都是有意义的。
我所谓的“无语义”,就是任二字组合起来,常在文章中出现的频率。
当然,我只要找频率高的较好了,不然太多了。
只是好奇,哪些二个字连在一起出现的频率较高而已。
像中研院之类的词频分析,我相信也是把资料用电脑分析后,
在所有二个字连在一起出现的结果中,把没有词义的部分去掉后,所整理出来的资料。
我就是想看看那些因为没有词意而被去掉的部分。
请问有人有办法吗?
作者: HotDesert (热啊!)   2018-07-21 16:39:00
你的意思是不成词的任两个字组合吗?如果是,你找不。到的。因为做这个没意义。你可以自己写个像bigram的程式,找个没断词的语料库,跑跑看。
作者: annisat   2018-07-22 16:37:00
同楼上,跑bigram去掉词库的entry~暴力解 XD中研院的词频分析应该是先断词过了 所有结果都是有意义的要不然你找最常共现的两个词 前词后字跟后词前字不成词的话 大概就会是无意义任二字组合比较高的那些了?XD
作者: CCY0927 (只是个暱称罢了)   2018-07-24 02:25:00
Google Ngram corpus V2 http://bit.ly/2JOkHd1资料量很大,缺点是简体中文。
作者: annisat   2018-07-27 16:21:00
跟中研院买(欸

Links booklink

Contact Us: admin [ a t ] ucptt.com