Re: [问题] 请问有什么办法加快这个 for loop 吗？ f496328mm PTT批踢踢实业坊

Re: [问题] 请问有什么办法加快这个 for loop 吗？

楼主: f496328mm (为什么会流泪) 2018-02-28 15:47:41

※ 引述《CaptPlanet (ep)》之铭言：
: 有list_a, list_b两个list
: list_a 有大约 70000 个 elements
: list_b 大约 3 million 个 elements
: 程式大致如下：
: res_li = []
: for x in list_b:
: try:
: res_li.append(list_a.index(x))
: except:
: res_li.append("")
: 对 list_b 中的每一个 element
: 在 list_a 中找到一样 element 把他的 index 加到新的 list 中
: 随着 iteration 增加速度变得越来越慢，
: 想请教各位为何会有这个现象以及有什么方法加速这个 for loop 呢？
: 谢谢各位高手
虽然这是 Python 版
我用 R 来比较一下速度
先讲结论
使用小 data 测试速度, list_a = 7,000笔, list_b = 300,000笔
python 耗时 : 24.7 秒
R 使用平行运算(mclappy) 耗时 : 1.2 秒
R 使用单核运算( sapply ) 耗时 : 2.9 秒
#==========================================
data 数量改为与原 po 相同, list_a = 70,000笔, list_b = 3,000,000笔
R 使用平行运算(mclappy) 耗时 : 69 秒
以下提供 code
#==========================================
# Python 版本
import numpy as np
import random
import time
import datetime
list_a = random.sample(range(0,10000),7000)
list_b = random.sample(range(0,500000),300000)
res_li = []
s = datetime.datetime.now()
for x in list_b:
try:
res_li.append( list_a.index( x ) )
except:
res_li.append("")
t = datetime.datetime.now() - s
print(t)
# 0:00:24.748111
# 耗时 24s
#==========================================
# R 版本
library(data.table)
library(dplyr)
library(parallel)
list_a = sample(c(0:10000),7000,replace = FALSE)# 7,000
list_b = sample(c(0:500000),300000,replace = FALSE)# 300,000
# case 1, 这里使用 R 的多核心运算
res_li = c()
s = Sys.time()
res_li = mclapply(c(list_b),function(x){
if( x %in% list_a ){
map = which(list_a==x)
#res_li = c(res_li,map)
}else{
map = ''
#res_li = c(res_li,map)
}
return(map)
}, mc.cores=8, mc.preschedule = T)
res_li = do.call(c,res_li)
t = Sys.time() - s
print(t)
# Time difference of 1.229357 secs
#===============================================
# case 2, 这里使用一般单核运算
res_li = c()
s = Sys.time()
res_li = sapply(c(list_b),function(x){
if( x %in% list_a ){
map = which(list_a==x)
#res_li = c(res_li,map)
}else{
map = ''
#res_li = c(res_li,map)
}
return(map)
})
t = Sys.time() - s
print(t)
# Time difference of 2.913066 secs
#===========================================
# 使用多核心, data 数与原 po 相同
list_a = sample(c(0:100000),70000,replace = FALSE)# 70,000
list_b = sample(c(0:5000000),3000000,replace = FALSE)# 3,000,000
res_li = c()
s = Sys.time()
res_li = mclapply(c(list_b),function(x){
if( x %in% list_a ){
map = which(list_a==x)
#res_li = c(res_li,map)
}else{
map = ''
#res_li = c(res_li,map)
}
return(map)
}, mc.cores=8, mc.preschedule = T)
res_li = do.call(c,res_li)
t = Sys.time() - s
print(t)
# Time difference of 1.151484 mins
提供不同的观点参考参考

作者: celestialgod (å¤©) 2018-02-28 16:55:00

R用八个核心结果比单核只快2倍多，怪怪的而且R可以直接用match做甚至是fastmatch::fmatch都可以很快

作者: vfgce (小兵) 2018-02-28 18:00:00

python将list a 改成dict,速度比R还快...

作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS) 2018-02-28 18:43:00

同楼上 BigO比一下就知道了

作者: vfgce (小兵) 2018-02-28 19:23:00

对R没偏见,语法较python简洁且内建支援矩阵,但原生R真的大部分情况都比python慢.

作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS) 2018-02-28 22:43:00

语言这种问题是战不完的单纯要拼这种速度可以拉C/C++FORTRAN Rust go..........还是看要应用而定如果这种计算不多并且是要做web app呢？

楼主: f496328mm (为什么会流泪) 2018-02-28 22:53:00

不是要拼速度拉只是提供一个参考

作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS) 2018-02-28 22:59:00

如果是作分析/统计多参考是没错的，但是要做到产品阶段还是要考虑不同语言的应用场景XDXDXD

作者: uranusjr (â†é€™äººæ˜¯è¶…ç´šç¬¨è›‹) 2018-03-01 01:03:00

这到底能参考到什么我实在是看不出来

作者: joyolkreg (阿华) 2018-03-01 06:20:00

如果能说明R版本的方法或概念如何改进python版本比较好，不然看起来是在拼语言

作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS) 2018-03-01 07:44:00

研究分析你想用什么语言都行，但是这样的效能差距，应该还不足达到转换语言的程度，更何况这段py code还可再修改会更快的可能。所以：参考不到什么＋看起来就是在拼速度(无误)

作者: galeondx 2018-03-06 05:15:00

https://goo.gl/s5YL2D

作者: XiDaDa5566 (习大大伍伍陆陆) 2018-03-07 02:33:00

可以参考出python比R语言慢很多啊

继续阅读

[问题] 爬买卖日报表CAPTCHA问题SONGya168 [问题] 请问有什么办法加快这个 for loop 吗？CaptPlanet [问题]PDF内页连结cccheng [问题] 如何从binary图片档取出pixel资讯?wtleader01 [问题] 网络爬虫使用pd.read_html时发生问题opengood5566 [问题] 学习PyQt5lukelu [问题] jupyter使用问题swampni [问题] line爬虫遇到问题coolching [问题] 资料结构参考书推荐sseeaann [问题] df.to_csv 输出档案的格式跑掉了OnePiecePR