※ 引述《FoxTz (大众梯Z)》之铭言:
: 个人没有程式基础,最近老板建议我去碰碰ML/DL,
: (偏向生医讯号,老板可能想试试看公司是否发展得出软件)
: 搜寻了一下~目前是用ANACONDA
: 想询问 (才碰两三天,不是当伸手牌,真的不懂才发问)
: 1. 我看了一堆网络资料,真的看不懂绝对/相对路径
: 比如我去外国公开数据库抓5000个正常/许多病理分类的心电图,想让程式跑跑,分类
: e.g 把资料放在 D:\ECG ,里面都是CSV (panda好像可以呼叫叫CSV),
: 请问如何把全部资料叫出来跑?
: (程式抓不到资料,不论设定D:\ECG 、D:\\ECG、D:/ECG )
: 然后如何设定 A,B,C,D等等正常与病,给程式试试看正确率
: (数据库抓的时候已分类好了)
不是很清楚你这个问题的核心是什么,应该可以分成几个部分来说:
## 绝对路径与相对路径
从根目录开始表示路径的称为绝对路径,除此之外可能还需要考虑
到文件系统与资料来源的部份,比如:
C:\data\my_dataset.csv
hdfs://myhub.com:8020/root/tmp/data/movies.txt
而相对路径,则是根据当前位置去推算,在 Unix-like 作业系统
下可以使用 pwd 先查看当前路径位置,透过 ../ 表示上一层目
录,据此来推算相对路径:
假设当前目录是 /home/user/workspace
那么 ../ 就是表示 /home/user
那么 ../../ 就是表示 /home
## 不同作业系统下的路径表示方式
在不同作业系统下的路径表示方式不一样,比如在 Windows 中采
用 '\' (backslash) 字符作为目录的分隔符号,而在 Linux 下使
用 '/' (fowardslash) 字符作为目录的分隔符号:
e.g.
- Microsoft Windows: .\data\file1.txt
- Unix/Linux: ./data/file1.txt
早期在 Python 里面用 os.path.join() 方法来处理,在 Python
3.4 添加了官方函数库 pathlib 来处理,不用写死路径也不用先判
断作业系统,只需要这样做:
```python
from pathlib import Path
file = Path(f'./data/file1.txt')
```
## 存取目录下的档案
通常在做分析的时候,多半会用 pandas 来将资料读入 dataframe
再进行操作,但他本身上有一些限制,这个我建议你可以参考下面
这个网站中的内容。
https://pythonspeed.com/memory/
注意的是读入一个大档跟多个小档分批处理会有不同的方式去做,
需要根据你自己的状况去做调整,这个也跟设备的硬件规格有关。
: 2. 所谓测试training data,如何和really data (TEST DATA)比较??
: (Validation????)
: 然后如何比较呢? ROC CURVE吗? 还是不同资料有不同比较法
: 或是有类似的书,会step by step,教读者如何做上述动作,可给予建议,感谢
主要看你使用哪一种训练方式,不过一般常见的话是拆成三种资料
集: training / testing / validation
- training 拿来训练模型, 并使用 validation 进行预测并调整参数
- testing 用来比较不同 model 的能力
至于怎么做比较,需要根据不同状况选择适合的评价指标,比如像
是 RMSE, MAE, MAPE 等,这些指标都有自己适合的场景和缺陷,
可以参考这篇:
https://medium.com/analytics-vidhya/forecast-kpi-rmse-mae-mape-bias-cdc5703d242d
: 3. 目前NB内存只有8G,请问加大内存是否会比较有效率
: (显卡2G,I7 10代)
加大内存绝对有他的优势在,至于能够有多么显著的效率提升,
要看你对资料做什么操作,还有你怎么去写程式,以及资料本身长
什么样……
: 感谢~~~完全不懂程式的人敬上