Fw: [请益] 将英文文章 软换成单字的程式.软件

楼主: unknow3121 (alex)   2019-07-22 23:38:45
※ [本文转录自 Eng-Class 看板 #1TDTTUZS ]
作者: unknow3121 (alex) 看板: Eng-Class
标题: [请益] 将英文文章 软换成单字的程式.软件
时间: Mon Jul 22 23:33:48 2019
本人最近欲学习某一领域英文,若手边有数篇该领域文章的话,请问有没有
“软件/程式/APP”可以直接自动“转换or分类or排序or解析”文章内出现的所有单字?
抱歉! 讲得有点拢统,实在不知道该怎么描述... 以下用条列的方式简单叙述:
1. 一篇上千字的某领域文章
2. 直接将该篇文章贴至需求的"软件"
3. 该软件自动将文章内出现的所有单字依序排列(例如从a-z)
4. 排列完后,将这些单字解析成 (a)中文 (b)词性 (c)音标 ...等等
例如:
<文章>
I have a pen
I have an apple
Ugh
Apple pen
I have a pen
I have pineapple
Ugh
Pineapple pen
<解析> a-z排序
a 一个 冠词 该字音标
an 一个 冠词 该字音标
apple 苹果 名词 该字音标
have 拥有 及物动词 该字音标
I 我 代名词 该字音标
pen 笔 名词 该字音标
pineapple 凤梨 名词 该字音标
Ugh 呃 词性 该字音标
作者: jack0204 (Jarbar王朝)   2019-07-24 08:00:00
想学就自己写啊,这用chrome套件写就行了
楼主: unknow3121 (alex)   2019-07-22 23:40:00
我是原po, 若有违反版规请告知, 谢谢!
作者: Hsins (翔)   2019-07-22 23:46:00
简单的字串处理跟爬虫啊,整篇文章去掉标点符号之后根据空格做 split 出单字,根据单字去爬意思、词性跟音标,最后排序。就算不用程式语言,单纯用 Excel 或 Google Spreadsheet 也能做到。
作者: dspp779 (苍疾)   2019-07-23 00:05:00
你听过 Linggle Booster 吗? https://b.linggle.com
作者: viper9709 (阿达)   2019-07-23 00:28:00
推二楼
作者: enthos (影斯作业系统)   2019-07-23 00:50:00
作者: xiangying (xiangying)   2019-07-23 07:17:00
google断词系统
作者: BlacksPig (Black Handsome s Pig)   2019-07-23 12:58:00
推二楼
作者: remmurds (Stronghold)   2019-07-23 13:18:00
连标题都打不好
作者: alihue (wanda wanda)   2019-07-23 13:37:00
2f 还需要再多做 Stemming/Lemmatization
作者: weiber82 (weiber)   2019-07-23 16:02:00
jieba
作者: windclara (null)   2019-07-23 18:19:00
2F已给答案。这真的不难QQ
作者: sxy67230 (charlesgg)   2019-07-26 10:36:00
请搜索Spacy或是nltk tool,翻译可以用wiktionary api
作者: jennya (Jennya)   2019-07-27 01:30:00
反推二楼,这其实并不简单。蛮好奇推二楼的人是否真的有做过。事实上字串处理部分就有一堆细节,包含大小写、时态转换、专有名词(get/gets/got)(Joe,Joe's)(don't) 等等等非常多无法备载。再来你还要去抓字典档、把断词后的单字套用上去。总之这不是一个五小时内能做完的简单的东西,如果二三十小时可能可以吧。不过如果有好用的library就另当别论。总之反推二楼。
作者: Hsins (翔)   2019-07-29 15:55:00
如果说要考虑到 morphology 当然就麻烦许多了,我说的做法只是阳春的处理。我会这样推文是针对于这篇发文者可能要做到的成果。其中比如你提到的大小写跟时态转换,甚至我说的构词方法,目前部分的网络字典所提供的 API 是可以处理的。以这篇他所要的结果来说,我的推文应该是可以 fit 他需求的。至于是要做成一个实际的产品要考虑到的东西,应该不是发文者要的吧?

Links booklink

Contact Us: admin [ a t ] ucptt.com