[问题] pandas read_sql(mysql) 资料大时很慢

楼主: atoo333 (天气真好)   2018-07-29 16:13:56
如题
同一段语法,查询结果约数百万笔,有三个字段varchar ,datetime ,float
情况
一.使用mysql workbench 测试sql语法,duration 7.551s,fetch 20.654s
二.使用pandas read_sql 未使用chunksize,跑超过半小时跑不出来,ram没有动
使用chunksize 也没有改善 (pymysql + sqlalchemy)
连到db server 看mysql workbench的dash board,
在Outgoing Network Traffic 部分,情况一的流量比情况二明显多很多,
而且情况二的流量不太连续。
在InnoDB Disk Reads的状况也是一样。
不知道pandas 这边还有什么调校手法可以使用,再麻烦先进指点一下!
谢谢!
楼主: atoo333 (天气真好)   2018-07-29 16:56:00
看到一些分析说pymysql 很慢,换成mysqldb 2分钟可跑出来
作者: TuCH (谬客)   2018-07-29 23:30:00
试试看先读少量的data 看内存消耗的程度

Links booklink

Contact Us: admin [ a t ] ucptt.com