pytorch在处理多GPU运算有data parallel跟distributed data parallel
我理解的前者是用multithread来解这问题 后者是multiprocess
在Python中 multithread要应对GIL 大量运算问题使用multithread其实不如单线程
所以data parallel实质单线程?
另外我昨天搞了个distributed data parallel
但accuracy比data parallel低超多 这为啥
超参数都一样
pytorch好难 哇哇呜呜呜