[问题] 有关df.loc[]的问题

楼主: sssh (叫我松高魂 ~~)   2018-12-04 20:39:05
范例如下
https://imgur.com/vaZab8V
如果我今天要找出Store 1中的Cost
df.loc["Store 1"]["Cost"]
老师说用这种方法好像会出现问题因此不建议
原文如下:
This looks pretty reasonable and gets us the result we wanted. But chaining
can come with some costs and is best avoided if you can use another approach.
In particular, chaining tends to cause Pandas to return a copy of the
DataFrame instead of a view on the DataFrame. For selecting a data, this is
not a big deal, though it might be slower than necessary. If you are changing
data though, this is an important distinction and can be a source of error.
想请教大家,老师在这边讲的具体上来说是什么问题?
小的有点看不懂这样的方法会带来什么状况@@
不知道是否有前辈可以帮忙指点一二?
作者: gmccntzx1 (o.O)   2018-12-04 21:25:00
参考: https://stackoverflow.com/questions/23296282还有这个: https://bit.ly/2Edy74i简单来说, `df.loc["Store 1"]["Cost"]` 会透过 2 次__getitem__ 来取值,后面行为的开始执行时取决于前面行为的完成时机。若资料可以允许写成 `df.loc[:, ('Store 1', 'cost')]`则 pandas 可以一次根据后面的参数取值,相对来说较快关于回传值是 view 还是 copy ,基本上可以照着stackoverflow 那篇回答的规则去判断。要了解的更详细的话,推荐你直接去追 source code:pd.DataFrame.__getitem__ : https://git.io/fpPuH里面有写到好几种状况,比较值得注意的地方有self._slice (generic._slice): https://git.io/fpPzxself._take (generic._take): https://git.io/fpP2E修正一下:上面的 generic 应该是 generic.NDFrame所以说,用 chain indexing 问题在于一般情况下不容易判断出取的值到底是 view 还是 copy (不了解如stackoverflow 那篇回答所说的规则),而非资料在内存中的情况差异所影响。而因为会影响取值结果是 view/copy 的情况很多种,所以官方还是建议少用 chain indexing。
作者: TitanEric (泰坦)   2018-12-05 10:12:00
推优文
楼主: sssh (叫我松高魂 ~~)   2018-12-05 10:32:00
感谢gmccntzxl的分享
作者: Angesi (小云豹)   2018-12-06 17:05:00
df.loc["Store 1","Cost"] 指定位置读 应该最简单用chain index 实在有点奇怪或者 隐含索引 df.iloc[0, 0] 也行

Links booklink

Contact Us: admin [ a t ] ucptt.com