在Fermi架构下跑出来的值会超高是因为两个原因
1.编译时编成m32的版本,没办法吃到4G以上内存
2.编译时编成限定kepler以上架构,导致在fermi上不能跑
所以程式会因为出错立刻结束,让执行时间超级短
以至于算出来的频宽会爆高!!
基本上我是认为程式没有问题
我帮大家编译了可以在fermi以后世代的卡上跑的程式
http://goo.gl/v7Ogq6
http://goo.gl/fKGHcp
那个因为不能上传执行档,下载后把尾巴的_去掉即可
编译环境是CUDA 7.0RC,所以需要第二个连结的dll档案一起下载下来
有漏掉什么dll的话我在补上来