大家好,小弟目前在处理大量资料时遇到了一些问题
我有一个dataset 大概有20000笔资料,而因为要用grid search 去找最佳参数,所以我目前
的做法是先把原始资料集复制N次 (N大概会抓到内存能负担得程度)然后再利用numba 向
量化的方式去进行向量化运算
而我想做的是把N组算出来的目标函数,依照每组参数进行相加(依照iteration 的编号相加
,目前想得出来的只有pandas 的 groupby 方法比较适合我) 但是用groupby 的话就会要花
费时间把大型array 转换成dataframe 在进行相加,这样速度就会慢很多
想请问各位有没有什么比较好的处理方法,感谢不尽!