[发问] CSV档案输入

楼主: LibrainAir (矛盾与平衡)   2020-04-05 10:40:37
请问各位先进,我有档案仅纪录一连串X,Y座标但可能出现多个重复值,也就是说可以画成heap map
我想要将这个档案依照对应出现次数转成list,例如
[原始档案]
X Y
1 2
2 1
1 1
1 1
0 0
1 1
[预期输出]
[[1,0,0],
[0,3,1],
[0,1,0]]
主要是要用于深度学习预处理资料,想请问大家改如何切入?
谢谢!
作者: Starcraft2 (来自星海的你)   2020-04-05 11:29:00
先扫一次X, Y可能的最大值 宣告一个2维阵列初值为0然后for循环去this_heat_map_array[x][y] += 1你自己有写写看一些了吗?
楼主: LibrainAir (矛盾与平衡)   2020-04-05 12:25:00
谢谢回复,是的有尝试过,但资料是百万尺寸所以RAM爆掉了所以想请问是否Panda或是Numpy有提供类似功能或是能改善的架构?再次感谢
作者: TitanEric (泰坦)   2020-04-05 15:31:00
numpy.unique搭配return_counts参数
作者: justoncetime (台北丛林好冷~)   2020-04-05 15:55:00
前面一页内有人问过.还有贴出你的code才知你怎写的
作者: jigfopsda (jigfopsda)   2020-04-05 19:32:00
可以看一下 sparse matrix 有没有满足你的需求
楼主: LibrainAir (矛盾与平衡)   2020-04-06 01:10:00
https://i.imgur.com/VdJ79bK.jpg主要处理到这边,目前卡在资料量太大如何处理,我会参考上述的建议再次感谢!
作者: justoncetime (台北丛林好冷~)   2020-04-06 01:45:00
电脑上的画面请用电脑撷,除非其他方式能一样清楚code有的人可能想try帮你debug,贴文字(或pastebin这两项,我觉得是提问者对潜在可能会帮助者的礼貌
楼主: LibrainAir (矛盾与平衡)   2020-04-06 02:18:00
好的,十分感谢建议!我之后会更正程式码,谢谢
作者: Starcraft2 (来自星海的你)   2020-04-07 02:40:00
目前的code一样是爆在memory吗? 错误讯息也可以帮助大家帮忙看
作者: darama (DoRaMa)   2020-04-30 16:51:00
先找 x, y 的最大值, 用以上值宣告一个output 2d array遍历全部座标(i,j) ;output[i][j]+=1

Links booklink

Contact Us: admin [ a t ] ucptt.com