[背景]
我有80多万笔html档案,每个档案即是一个当初爬过的网页内容,
目前已经产生了一个vocabulary list,
里面是从80多万笔html档案找到的所有字汇,约有20万笔(非英文字符已经删除),
我打算把这个vocabulary list匹配每个html档,再统计每个字汇在该html档中的次数,
最后再把这个80万*20万的资料输出成csv档(SQL还正在摸索),
无奈我的笔电内存撑不住这么大量的资料处理,
所以现在把念头动到AWS上面。
[AWS相关知识]
我目前对于AWS只有非常基础的理解,
S3: 可以在AWS上建立新的bucket并上传档案;可以使用boto3进行一样的工作
EC2: 可以在AWS上建立新的instance并且透过本地电脑连结后使用python;
可以使用boto3进行一样的工作;可以让远端server上传并直接执行Python脚本
[问题]
目前的构想是先把80万笔html档案上传到S3 bucket,
然后借由EC2 instance直接执行我先写好的Python脚本,
待所有档案都读取过后,
一并将资料输出成csv档并储存在S3 bucket底下。
我的问题是:
如果依照我的计画进行,我的个人电脑必须不能中断连结,
否则所有进行中的远端工作全部删除,
除非使用terminal multiplier