※ [本文转录自 Eng-Class 看板 #1TDTTUZS ]
作者: unknow3121 (alex) 看板: Eng-Class
标题: [请益] 将英文文章 软换成单字的程式.软件
时间: Mon Jul 22 23:33:48 2019
本人最近欲学习某一领域英文,若手边有数篇该领域文章的话,请问有没有
“软件/程式/APP”可以直接自动“转换or分类or排序or解析”文章内出现的所有单字?
抱歉! 讲得有点拢统,实在不知道该怎么描述... 以下用条列的方式简单叙述:
1. 一篇上千字的某领域文章
2. 直接将该篇文章贴至需求的"软件"
3. 该软件自动将文章内出现的所有单字依序排列(例如从a-z)
4. 排列完后,将这些单字解析成 (a)中文 (b)词性 (c)音标 ...等等
例如:
<文章>
I have a pen
I have an apple
Ugh
Apple pen
I have a pen
I have pineapple
Ugh
Pineapple pen
<解析> a-z排序
a 一个 冠词 该字音标
an 一个 冠词 该字音标
apple 苹果 名词 该字音标
have 拥有 及物动词 该字音标
I 我 代名词 该字音标
pen 笔 名词 该字音标
pineapple 凤梨 名词 该字音标
Ugh 呃 词性 该字音标
作者:
jack0204 (Jarbar王朝)
2019-07-24 08:00:00想学就自己写啊,这用chrome套件写就行了
作者:
Hsins (翔)
2019-07-22 23:46:00简单的字串处理跟爬虫啊,整篇文章去掉标点符号之后根据空格做 split 出单字,根据单字去爬意思、词性跟音标,最后排序。就算不用程式语言,单纯用 Excel 或 Google Spreadsheet 也能做到。
作者:
enthos (影斯作业系统)
2019-07-23 00:50:00作者:
xiangying (xiangying)
2019-07-23 07:17:00google断词系统
作者:
BlacksPig (Black Handsome s Pig)
2019-07-23 12:58:00推二楼
作者:
remmurds (Stronghold)
2019-07-23 13:18:00连标题都打不好
作者:
alihue (wanda wanda)
2019-07-23 13:37:002f 还需要再多做 Stemming/Lemmatization
作者:
weiber82 (weiber)
2019-07-23 16:02:00jieba
作者: windclara (null) 2019-07-23 18:19:00
2F已给答案。这真的不难QQ
作者:
sxy67230 (charlesgg)
2019-07-26 10:36:00请搜索Spacy或是nltk tool,翻译可以用wiktionary api
作者:
jennya (Jennya)
2019-07-27 01:30:00反推二楼,这其实并不简单。蛮好奇推二楼的人是否真的有做过。事实上字串处理部分就有一堆细节,包含大小写、时态转换、专有名词(get/gets/got)(Joe,Joe's)(don't) 等等等非常多无法备载。再来你还要去抓字典档、把断词后的单字套用上去。总之这不是一个五小时内能做完的简单的东西,如果二三十小时可能可以吧。不过如果有好用的library就另当别论。总之反推二楼。
作者:
Hsins (翔)
2019-07-29 15:55:00如果说要考虑到 morphology 当然就麻烦许多了,我说的做法只是阳春的处理。我会这样推文是针对于这篇发文者可能要做到的成果。其中比如你提到的大小写跟时态转换,甚至我说的构词方法,目前部分的网络字典所提供的 API 是可以处理的。以这篇他所要的结果来说,我的推文应该是可以 fit 他需求的。至于是要做成一个实际的产品要考虑到的东西,应该不是发文者要的吧?