图片缩略图

GPUBench

使用MATLAB中的标准数值基准比较gpu。

211个下载

更新2018年7月25日

查看许可证

编者按:这个文件被选为MATLAB中心本周的挑选

GPUBENCH次不同的MATLAB GPU的任务,估计你的GPU的每秒浮点运算的峰值性能(FLOP /秒)。它产生出怎样的GPU的性能预先存储性能结果从一系列其它GPU的比较详细的HTML报告。
请注意,这个工具是专为比较GPU硬件。它不比较不同版本的MATLAB的GPU性能。
需要MATLAB R2013b或以上并用CUDA计算能力2.0或更高的GPU。

引用作为

MathWorks并行计算工具箱队(2020年)。GPUBench(//www.tianjin-qmedu.com/matlabcentral/fileexchange/34080-gpubench),MATLAB中央文件交换。检索

意见及评级(93

罗宾·范

英特尔(R)酷睿(TM)i7-9700K CPU @ 3.60GHz |32GB RAM 2666兆赫|Nvidia的RTX 2080 SUPER
============================================
双精度
m乘以|反斜杠| FFT
GPU:355.97 |183.51 |149.37
CPU:314.63 |156.11 |16.13
==========================================
单精度
m乘以|反斜杠| FFT
GPU:10683.54 |1196.45 |647.30
CPU: 622.69 | 386.47 | 40.32
==========================================

健太

非常好!谢谢

英特尔至强W-3265 |192GB ECC RAM |Nvidia的泰坦RTX
============================================
双精度
m乘以|反斜杠| FFT
GPU:494.31 |390.03 |217.41
CPU:1307.66 |323.78 |26.30
==========================================
单精度
m乘以|反斜杠| FFT
GPU: 15374.46 | 3683.54 | 1093.00
CPU: 2436.82 | 639.88 | 44.70
==========================================

Intel(R) Xeon(R) Gold 6230 CPU @ 2.10GHz | 96GB RAM | Quadro RTX 6000
==========================================
双精度
m乘以|反斜杠| FFT
GPU:545.57 |517.06 |240.11
CPU:1647.39 |324.92 |21.03
==========================================
单精度
m乘以|反斜杠| FFT
GPU:14720.67 |2960.43 |985.47
CPU: 3126.55 | 610.91 | 35.15
==========================================

Yuto Ozaki

Intel(R) Core(TM) i7-5820K CPU @ 3.30GHz | Quadro M5000
================================================
双精度
m乘以|反斜杠| FFT
GPU:120.01 |94.90 |66.92
CPU:207.12 |136.36 |7.92
==========================================
单精度
m乘以|反斜杠| FFT
GPU:3885.49 |1329.31 |296.31
CPU: 415.55 | 261.23 | 12.72
==========================================

之后,它运行完毕,没有HTML报告跳了出来。任何与浏览器设置等?

英特尔至强W-2125 |64GB RAM |的Nvidia GeForce 2080 RTX钛
================================================
双精度
m乘以|反斜杠| FFT
GPU:501.40 |238.15 |226.72
CPU: 318.83 | 138.90 | 12.04
==========================================
单精度
m乘以|反斜杠| FFT
GPU:12856.65 |1844.82 |791.83
CPU:654.36 |319.05 |21.06
==========================================

阿诺德

英特尔9900K @股票|64GB RAM |Nvidia的泰坦RTX
==========================================
双精度
m乘以|反斜杠| FFT
GPU: 534.63 | 340.87 | 239.43
CPU:394.33 |200.68 |16.47
==========================================
单精度
m乘以|反斜杠| FFT
GPU: 13570.52 | 2974.16 | 924.16
CPU:734.57 |418.49 |34.77
==========================================

???????????

AMD Ryzen Threadripper 2950X
的GeForce 2070 RTX
==========================================
双精度
m乘以|反斜杠| FFT
291 |169 |134
主机PC |158 |105 |11
==========================================
单精度
m乘以|反斜杠| FFT
7974 |1515 |795
主机PC |400 |264 |19
==========================================

xeon gold 6126双/ 128 GB
的Quadro GV100双(我不知道这两个GPU的工作)
结果反斜杠的双精度太低。
==========================================
双精度
m乘以|反斜杠| FFT
6828 |350 |525
主机PC |588 |124 |12
==========================================
单精度
m乘以|反斜杠| FFT
13879 |1683 |1043
主机PC |1137 |267 |18
==========================================

本Tordoff

Hi Mohammed,通常gpuBench会同时测量你的GPU和CPU,让你知道你能达到的最佳加速情况。如果没有GPU被检测到,你应该得到一个选项,让你只在CPU上运行,这样你就可以看到不同的GPU可能会给你什么加速与你的CPU,如果你安装它们。这就是您所看到的,还是它只在CPU上运行而没有提供选择?

虽然乍一看可能有些奇怪,但是能够将你的CPU与不同的GPU进行比较,对于许多考虑购买GPU的人来说是很有用的。

它在CPU上运行GPU计算,是不是很奇怪?

卡尔蒂克GURNANI

你好,刚刚运行在Nvidia K80和get(顺便说一下,只有一个GPU使用卡,如何快速改变它?)

警告:F的测量时间可能不准确,因为它运行得太快了。试着测量
一些需要更长的时间。
>在timeit(线158)
在gpuBench>iTimeit(第323行)
在gpuBench> runMTimes(线207)
在gpuBench(线103)
在gpuBenchLauncher(第11行)
在gpuBenchApp/startApp(第88行)
在gpuBenchApp(第48行)
在appinstall.internal.runapp>执行(线78)
在appinstall.internal.runapp> runapp13a(线57)
在appinstall.internal.runapp> runco​​rrectversion(线36)
在appinstall.internal.runapp(线18)

KSSV

我TITAN X(帕斯卡)结果如下。

我想我应该期望在11 tflops / 32 = ~343 gflops进行双精度运算

这是基于阅读http://www.guru3d.com/articles-pages/nvidia-geforce-titan-x-pascal-review,1.html

343 GFLOP的只是你在下面的表格基准看,所以我觉得我得到了我支付。

数据类型“double”的结果数据类型“single”的结果
(在GFLOPS)(在GFLOPS)
MTimes FFT反斜杠反斜杠MTimes FFT
泰坦X(帕斯卡)357.95 308.44 187.75 7349.88 2175.31 632.93

我会很感激的反馈。我是不是推理是否正确?

你为什么不只是后的结果的地方?

i7 7700K CPU @ 4.2 GHz / 16GB RAM (3200MHz)
CUDA 8

==========================================
双精度
m乘以|反斜杠| FFT
的GeForce GTX 1080Ti |423 |286 |190
主机PC |258 |162 |23
==========================================
单精度
m乘以|反斜杠| FFT
的GeForce GTX 1080Ti |11907 |1897年|679
主机PC |502 |340 |33
==========================================

哈雷尔

Mac用户还有希望!

MBP 2016我i7-6920HQ CPU @ 2.90GHz
16GB内存
CUDA 8,
结果:

==========================================

双精度

MTimes | Backslash | FFT

GeForce GTX 980 Ti | 190 | 165 | 104

主机PC |157 |105 |12

========================================== 

单精度

MTimes | Backslash | FFT

GeForce GTX 980 Ti | 5998 | 1058 | 433

Host PC | 316 | 202 | 20

==========================================

托尼

格雷格

benkant

阿德里安

菲利普

https://devblogs.nvidia.com/parallelforall/cuda-8-features-revealed/

希望我们很快就会得到适当的支持帕斯卡尔。万博1manbetx

OSNR

i7-6850K@3.60GHz,CUDA 8RC,16GB内存

结果:
==========================================
双精度
m乘以|反斜杠| FFT
的GeForce GTX 1080 |276 |188 |139
主机PC |204 |124 |8
==========================================
单精度
m乘以|反斜杠| FFT
GeForce GTX 1080 | 5273 | 1403 | 422
主机PC |367 |245 |15
==========================================

在各条曲线的仔细检查:

- FFT(双)后ARRAYSIZE = 4M滴
——ArraySize=4M后,MTimes(单次)下降
- FFT(单)后ARRAYSIZE = 16M滴

阿诺德

马丁,
我对此也很感兴趣,但很明显的是,“pascal”Geforce TitanX的性能要比我之前发布的1080GTX高出30%。由于目前版本的CUDA 7.5并没有完全支持pascal平台,所以到目前为止,单精度性能还没有达到应有的水平(GTX1080应该是> 8tflops /s,而泰坦x应该是< 12tflops /s)。万博1manbetx
至于双精度,像任何的GeForce卡TitanX将没有机会对你的K40c因为Nvidia公司想要出售多少高价特斯拉卡。

在单精度,1080GTX已经是20%,比yourK40c快,但它是160%,更快的硬件明智的。

有人会使用最新的泰坦X愿意发表自己的基准测试结果?我现在有一个K40c,我使用的计算(主要是FFT)和我正在寻找购买更多的计算能力(双精度)。从我了解的FFT主要是内存势必所以像泰坦X可能会在价格上便宜很多工作,以及在K40c。我已为我的结果从下面的K40c。

双|m乘以|反斜杠| FFT
特斯拉K40c |1154.72 |706.48 |135.51
主机PC |186.81 |117.49 |4.97

单|m乘以|反斜杠| FFT
特斯拉K40c | 3071.64 | 1284.10 | 299.57
主机PC |468.12 |226.27 |8.94

阿诺德

由于艾莉森,试过这个刚才。整个计算机重新启动后的作品。

MATLAB / GPU的不断崩溃试图使用像medfilt2一个简单的过滤器(A,[9,9])。较小的邻域的工作,更大的9.9或更大的没有。空闲内存则楠没有什么帮助,除了重新启动Matlab的。硬件似乎稳如泰山,压力测试与其他CUDA代码数天。这里有一个说明。http://de.mathworks.com/matlabcentral/answers/299970-reset-gpudevice-does-not-work

我并不想进入这里的细节,错误的地点,但目前我们的底线是,我们计划扩大与一些8或12万亿次的利用Matlab加上消费者的GPU(1080GTX,TitanX)我们的模拟工作为了钱听起来很大(我们只需要单精度)。在这一点上,虽然,我不相信组合的运行速度非常强劲。

也许CUDA 8将解决这一和/或2016B即可。

嗨阿诺德

停止这种延迟重复用于在MATLAB使用第一gpuArray或其它GPU命令的GTX1080的一种方法是设置您的系统被称为CUDA_CACHE_MAXSIZE上的环境变量。这是默认设置为32MB,当我们重新优化我们的图书馆为帕斯卡架构没有足够的空间。因此,而不是一次性的优化延迟发生的每一次。

从实验我们建议这个500MB之间的大小设置为1GB。为了设置缓存为1GB使用CUDA_CACHE_MAXSIZE 1073741824.在Windows中,你可以在属性>高级系统设置>环境变量做到这一点。

阿诺德

喜奔,

关于延迟。是的,很出乎我的意料它目前需要像一分钟(!)左右打开第一gpuArray我每次运行MATLAB中,例如快速分析大量图像哪一种失败的目的。执行这个基准时发生的一样,花了很长的甚至开始之前。这似乎是属于你的CUDA 7.5的描述中即可。
如果英伟达更新CUDA,当前的Matlab版本是否会得到更新?因为在NVidia发布之后还要再等6个月(最坏的情况),这将是一种耻辱。
我也不打算买一个新的私人许可证,因为使用GPU是我计划在家里做的事情。在工作中,我们有订阅计划,所以不用担心……“完成时”。

谢谢你让我知道,我是从字面上即将拉开购买家庭使用一个r2016a许可证,但是这将是一个浪费那么如果我需要CUDA 8帕斯卡和Matlab可能不会去为r2016a提供它了....

阿诺德

asa旁注:
我在使用gpuArrays与MATLAB的问题,比如medfilt2(A,[11,11])老是死机,而尺寸的7.7仍然有效。
只有MATLAB重启再次使得GPU使用。

本Tordoff

阿诺德您好,感谢分享这些成果。

虽然时间可能会以较小尺寸的问题,我觉得你不是在为GTX1080增益的方式看到多少真正的原因是CUDA的版本使用MATLAB和并行计算工具箱(CUDA 7.5和更早的版本)做不直接支持新的“帕斯卡”级万博1manbetxGPU。相反,他们回落到刚刚在时间重新编译库的,这也是为什么你会看到在第一次使用大延迟。这意味着所产生的算法不能完全新帕斯卡的GPU架构进行了优化。

CUDA 8将是第一个具有本机Pascal GPU支持的CUDA版本,但截至目前(8月22日),除了作为“发布候选版本”之外,该万博1manbetx版本还不可用。

阿诺德

大家好,

做(GTX 1080英特尔5960X),在新机器上测试得到了一个很好的警告信息:
====================
警告:f的测量时间可能是不准确的,因为它是
运行过快。尝试测量的东西,需要更长的时间。
====================

因此,它是快,我想:P,明明只有在单精度(谢谢你,英伟达)。有趣的是,它是远离它的8Tflop /秒,虽然它在理论上具有在单精度。随着4.42 TFLOP /秒,这只是500GFlop / S比GTX 970我试过更快。它可能是,该警告信息是正确的,这个测试不能真正衡量正确的表现?

结果:
==========================================
双精度
m乘以|反斜杠| FFT
的GeForce GTX 1080 |219.50 |175.22 |115.19
主机PC |329.06 |202.88 |16.29
==========================================
单精度
m乘以|反斜杠| FFT
的GeForce GTX 1080 |4420.24 |1570.92 |414.50
主机PC |617.28 |407.54 |19.79
==========================================

斯塔凡

一个普遍的问题,我认为你们中的一些使用GPU与神经网络计算;有任何你用于预测问题的GPU并获得了更快的计算比相比,使用CPU?

这里更多的信息:
http://se.mathworks.com/matlabcentral/answers/291744-time-series-prediction-using-neural-networks-narnet-narxnet-is-it-at-all-possible-to-train-a-ne

斯塔凡

玉峰,你的泰坦x得了多少分?

裕丰黄

马尔科姆:我非常在这个感兴趣的话,可以让我们贴?
(也评价;我在两台不同的机器上运行一个Titan X和一个T2075)
玉丰

我在建筑外部GPU为的MacBook Pro 15" 2015年中期试图找出这是霹雳2运行在最佳的GPU的过程。

斯塔凡

(阿诺德,我的意思是GTX 980和GTX不是1070 ...对不起这个)

斯塔凡

感谢阿诺德的规格GTX 1070卡。如果可以的话,我希望在nexus上使用GTX 1080卡进行同样的测试。明天早上,我将增加16gb的内存和一个专业的SSD到我的钻机,下一步很可能是增加一个GTX 1080(然而,我预计这张卡的价格下降很快,将等待几周后购买)。如果没有人能打败我,我将在获得GTX 1080卡后添加规格。

阿诺德

的工作原理。
试了一下这个系统上:
英特尔2500K,的GeForce GTX 970 4GB
==============
双单-----------------------------
m乘以|反斜杠| FFT--- MTimes | Backslash | FFT

的GeForce GTX 970
115.58 | 86.22 | 62.41—3755.02 | 444.68 | 247.94
主机电脑
104.40 | 62.44 | 7.68—214.48 | 152.65 | 14.94

这样的耻辱,普通卡的双精度这样残废

该应用程序提供了许多警告,nargchk已经过时,这将是很好,如果你可以相应地更新应用程序。

为用户提供了一个很好的角度来看,如果他/她真的想继续前进,实现他们的GPU代码。要知道,改变你的码V的疼痛/ s的速度计算的奖励。

程joylin

程joylin

菲利普

马丁

我只是想指出,我只能从改变线442 gpuBench.m后MATLAB R2014a运行“freemem在= gpu.AvailableMemory;”为 “freemem在= gpu.FreeMemory;”万一别人有同样的问题。干杯,马丁

仙女

@Alex。我完全同意。15" MacBook Pro的双精度浮点性能是残缺的。见GPUBench分数@http://www.tinyurl.com/cuda-on-mac

@Fabio:这是在MacBook Pro上晚2013年,2.3千兆赫,16 GB。见最后两行。似乎只有FFT双精度比CPU(约两倍的速度)快。\和*慢得多。漂亮残废性能...
苹果应该用在Quadro K1100M(相同的物理芯片,而不残废的双精度750M)。从外观上来看,这是不值得编码与750M的MBP的GPU的努力。你可以只坚持与CPU。问题是,如果你想购买的MBP没有750M但具有相同的CPU,你最终支付相同的价格(当时是在五月份的情况回来时,我买了它至少)。

结果数据类型“双”
(以GFLOPS表示)数据类型“single”的结果
(在GFLOPS)
MTimes FFT反斜杠反斜杠MTimes FFT

的Quadro K6000 1489.50 453.38 141.32 3998.82 737.72 295.48
特斯拉K20C 1005.00 490.83 110.40 2690.21 772.21 257.51
特斯拉C2075 327.83 242.26 69.13 684.97 425.15 144.56
的GeForce GTX TITAN 213.35 124.43 90.89 3840.88 735.68 328.85
的GeForce GTX 680 139.20 97.53 58.82 1468.69 620.54 214.67
2000的Quadro 38.60 33.01 14.18 232.90 122.57 46.32
GeForce GT 640 18.13 14.08 8.51 185.60 95.49 33.62
的Quadro K600 13.24 10.69 6.17 135.40 0.01 26.57

主机PC 136.45 82.92 7.90 250.23 178.69 5.71
的GeForce GT 750M 27.38 23.01 13.83 348.97 0.03 59.32

仙女

诺埃尔,MacBook Pro的视网膜晚2013,酷睿i7 2.3GHz的,16 GB,搭配Nvidia GT 750M独立显卡:
C / GPU GFLOPS | MTimes |反斜杠|FFT |MTimes |反斜杠|FFT |

PC主机| 144.88 |63.95 |6.93 |235.92 |153.01 |11.81

的GeForce GT 750M |27.92 |19.58 |13.04 | 296.35 | 0.03 |60.88

诺埃尔

和请求......没有任何人有gpuBench结果为NVIDIA GT 750M里面最新的MacBook Pro生活。我想知道的双精度是多么残缺是我买一个之前。提前致谢。

诺埃尔

新版本后R2014a,但仍然没有R2014a数据,所以GPUBench倒了,当谈到报告生产(如果运行R2014a)。一种解决方法是R2013b.mat的名称更改为R2014a.mat,然后R2014a可以成功运行GPUBench!

菲利普

喜奔,是的,我从8pins +缺陷6pins去,到8针+ LP4-> 6pins,现在的伟大工程。谢谢你的支持!万博1manbetx

本Tordoff

最后再澄清一下:你们现在有6针和8针的连接器连接吗?你肯定需要两者都得到完整的250W,土卫六可以消耗峰值负载。

喜奔,感谢您的评论。进行了大量的测试,掉期等之后,我发现我的PSU有缺陷,因为之后我取代了直接的6个引脚从电源插座,带双LP4出口+它现在的工作(gpuBench,3Dmark的,等等)适配器。

本Tordoff

嗨塞德里克,你能向我们完整的日志条目?如果它太大,张贴在这里,把它直接使用上面笔者链接。

据猜测,这听起来像是你在运行计算时超过了一些功率设置——GPU工作台故意计算(因此是功率)重。你确定两个电源接口都连接了吗?你的PSU听起来足够大,所以有点奇怪。

当我尝试在“GPU单体”测试/部分运行GPUbench时,我获得了一个关机/重启(事件日志中名为“内核-电源”的条目)。

GTX泰坦黑(插槽PCIE2 16X 75W)的戴尔Precision T7500,双Xeon X5550,24GB RAM,1110W电源,最新的BIOS更新,SERR / DMI禁用,驱动337.88的图形卡。

拉尼尔

win7sp1 64位,CPU E5-2687Wv2, Matlab 2014a

GTX TITAN黑色1312.05 517.26 150.15 3730.83 881.97 309.47
主机PC 140.18 101.90 6.89 327.19 209.63 9.50

拉尼尔

Remsus

谢谢米哈尔

我想你们会遇到和我一样的双精度问题。

但似乎它需要启用的GTX泰坦双精度模式

它在英伟达控制面板,管理3d设置,全球设置选项卡。

启用后,事情看起来很不一样:
MTimes_D Backslash_D FFT_D
的GeForce GTX TITAN 1285.83 128.35 146.92
特斯拉C2075 333.84 246.11 73.36

Ubuntu的12.04.3 64位,MATLAB R2014a
数据类型“double”的结果(以GFLOPS表示)

数据类型“single”的结果(以GFLOPS表示)
MTimesBackslashFFTMTimesBackslashFFT
特斯拉K20c1005.83496.82131.462690.80783.38282.48
特斯拉C2075333.84246.1173.36696.37435.56163.04
的GeForce GTX TITAN213.31130.6995.013826.94514.20365.85
的GeForce GTX 680139.2694.6660.661463.78604.57223.48
的GeForce GTX 670117.7381.7752.221165.37519.18201.95
的Quadro K500085.4864.1741.00955.10451.36172.25
的Quadro K400060.5749.6428.40663.63364.36128.24
的Quadro K200028.7920.9313.90310.71141.5856.71
GeForce GT 64028.7921.1013.71314.82141.8559.29
主机PC38.9729.152.1079.2947.974.05
方形住宅区K60013.2410.386.31135.5771.1227.61

与性能CUDADevice:

名称:“GeForce GTX TITAN”
指数:1
ComputeCapability: '3.5'
万博1manbetxSupportsDouble: 1
DriverVersion:5.5000
ToolkitVersion:5.5000
MaxThreadsPerBlock:1024
MaxShmemPerBlock:49152
MaxThreadBlockSize: [1024 1024 64]
MaxGridSize:2.1475e + 09 65535 65535]
SIMDWidth:32
TotalMemory:6.4421e + 09
FreeMemory:5.9798e + 09
MultiprocessorCount:14
ClockRateKHz:875500
ComputeMode:“违约”
GPUOverlapsTransfers:1
KernelExecutionTimeout:1
CanMapHostMemory:1
Device万博1manbetxSupported:1
DeviceSelected:1

Remsus

对于谁得到,最大500个递归错误的人,尽量不要运行该应用程序,但只需要输入gpuBench()。对我来说,它的工作。

是否有关于哪些系统做了参考结果统计的信息?
我们决定购买GeForce GTX TITAN,而不是C2075,因为在规格上,它应该击败C2075 eccept的ECC内存,但大多数人关闭,以获得更快的性能。但现在,当我开始试驾的时候,特斯拉2075几乎在所有方面都击败了我们系统中的GTX,除了MTimes和FFT (SINGLE)。
尤其反斜杠翻一番用相比,在参考系中的246为C2075 82Gflops被非常dissapointing。

任何其他人有一个泰坦,可能会分享他/她的结果?请发送时,如果左右。

gpuBench的当前版本不comaptible与R2014a

最新版本R2014a的一些问题:

500最大递归达到上限。使用集合(0, 'RecursionLimit',N)来改变极限。要知道,超越您的
可用堆栈空间会崩溃MATLAB和/或您的计算机。

错误gpuBenchApp

本Tordoff

谢谢马修,你是对的 - 我会得到固定。

理想时间应使用timeit(主机)或gputimeit(针对GPU)来衡量,但如果我开始使用那些那么这将停止R2013a和更早的工作。我很快就会发布更新。

喜奔,
我想说感谢伟大的应用程序,而且要指出的东西,可能会导致在某些情况下不准确的结果。该功能GTOC()是使用wait()的函数(这是好的),但它也呼吁gpuDevice每一次,这实际上是相当缓慢的 - 这通常是3.6和为5.6ms之间需要我的机器上 - 这一次被添加到总数。你可能会考虑将在持久变量gpuDevice的输出,例如gpuid,而是调用wait(gpuid)。
对于大的阵列,我认为这并不重要,但是对于较小的阵列,额外的gpuDevice时间可能会使GPU看起来比CPU慢,而实际上并不是这样。

嗨,罗德里戈,

gpuBench没有显示任何“加速”比较,它显示了每秒浮点运算(FLOPS)的绝对性能。您的CPU的结果是隔离的CPU的绝对性能结果,而不是作为比较。其他结果也是一样。预先存储的“主机”结果是用于捕获结果的机器的绝对性能。

所有地块包括GPU和主机PC的结果,所以文也许应该说:“这些结果计算时显示GPU或主机PC的性能...”。我会解决这个问题。

谢谢

[R

例如,如果我点击主机PC的结果,我看到

“这些结果显示GPU的性能计算时......”

此外为什么出现加速了我的CPU?据推测这是因为它是使用并行计算随着CPU的数量,是这样的?

[R

本,

谢谢你的回答。如果我理解正确的话,那么高亮的GeForce GTX 770M在GPUBench报告是加速从我自己的GPU和主要宿主是我对着用于预先存储的数据CPU CPU?

进出口仍然没有什么结果都告诉我清除。也许报告可以包括多一点解释?

谢谢。

罗德里戈。

本Tordoff

嗨,罗德里戈,

“主机PC”的数据并不使用于所有的GPU,它测量你的PC的主CPU(一个或多个)。因此,你可能只是看到我们使用了相当高规格的PC托管我们测试的各种图形处理器(做一个更公平GPU VS CPU比较)。

[R

您好,感谢一个非常漂亮的投稿!

林发现,我的电脑(主机)是相当慢比预先存储的数据完全一样的卡(Nvidia的GTX 770M)。是否有可能改善这种任何建议?纽约推荐阅读?

再次感谢,

罗德里戈。

本Tordoff

嗨迈克,我与这里出现的错误报告,因为它意味着其他人可以看到他们也没有问题。我可以用一个新的MATLAB安装来重现问题,我在作品的修复。

作为一个变通方法,你应该能够在命令行运行gpuBench(只需输入“gpuBench”)——只是应用程序启动器坏了。

麦克风

@Ben我已经通过FileExchange向您发送了详细信息。我一开始就应该那样做的。你,或者Mathworks的某个人,请删除我的注释,这样我就不会把注释和评分线程搞得一团糟。很抱歉。

本Tordoff

嗨麦克。我只是试着下载和两个R2013b和R2013a安装应用程序,并没有击中任何问题。你能描述你执行的,这样我可以尝试和诊断问题到底是什么步骤?

麦克风

这一直在过去,但今天你下载过,并在MATLAB 2013a运行效果很好,我得到的错误

500最大递归达到上限。使用集合(0, 'RecursionLimit',N)来改变
极限。请注意,超出可用堆栈空间可能会导致MATLAB和/或崩溃
你的电脑。

错误gpuBenchApp

伟大的GPU应用程序,以显示你如何比较GPU给他人。

贾斯汀,我有一个类似的错误,就像你描述。我固定的文件复制到不同的文件夹(C:\ gpubench)和运行从那里安装。

贾斯汀

我在R2013a上尝试使用你的app时,出现以下错误:

使用evalin错误
未定义的函数或变量“GPUBenchApp”。

误差在appinstall.internal.runapp>执行(线69)
OUT = evalin( '呼叫者',[脚本 ';']);

误差在appinstall.internal.runapp> runapp13a(线51)
outobj =执行(完整文件(appinstalldir,[wrapperfile 'App.m']));

误差在appinstall.internal.runapp> runco​​rrectversion(线35)
appobj = runapp13a(appinstalldir);

在appinstall.internal.runapp中出现错误(第17行)
OUT = runco​​rrectversion(appmetadata,appentrypoint,appinstalldir);

本Tordoff

嗨安德烈,

是的,你可以用这个工具来做这件事,尽管它并不那么简单。稍后我将考虑添加更方便的方法。

1.删​​除发行版的数据文件使用的是(这样的数据/ R2013a.mat如果使用的是最新版本)。
2.捕获和存储从每台机器/ GPU您感兴趣的结果:

>> data = gpuBench();
> > gpubench.saveResults(数据);

这将建立一个新的数据文件,具体到你的机器和MATLAB释放被使用。让我知道这不会为你工作,或者你建议如何使这个更方便。

干杯

如说明书中所述,GPUBench“产生出怎样的GPU的性能从一系列其它GPU的比较预先存储性能结果的详细的HTML报告。”虽然是很高兴GPUBench,我发现奇怪的是,应用程序只允许以比较组预定义的其他硬件。

Quite a typical situation is that your bosses (or yourself) want to compare machines that the company already has (e.g., to decide what comps to allocate for the development and what for running release versions, or to decide which computers must be enhanced with additional processor units). It would be fine to have an opportunity to run GPUBench in one computer, save the benchmark structure to a file, copy this file to another computer and run the GPUBench on that another computer in such a manner that its data are added to the benchmark structure. Thus the User could compare his/her own computers.

难道这种模式能以某种方式在应用程序的当前版本可以实现?如果没有,可以把它包括在未来的版本?

米尔科

哇,超棒的想法通过应用程序。智能包括自己的电脑和其他gpu。

Narfi

如果碰上CUDA_ERROR_LAUNCH_TIMEOUT,看看

//www.tianjin-qmedu.com/gputimeout

它说明了如何更改系统设置,以避免这一点。

喜奔,

感谢您的代码。

我得到这个错误,虽然。我知道它是与超时设置的事,但不知道是什么,从这里做。我的Quadro 1000M不会出现超速了我的FFT等。

警告:CUDA执行过程中出现意外的错误。CUDA的错误是:
CUDA_ERROR_LAUNCH_TIMEOUT。
>在gpuBench在75
警告:CUDA执行过程中出现意外的错误。CUDA的错误是:
CUDA_ERROR_LAUNCH_TIMEOUT。
>在gpuBench在75
警告:CUDA执行过程中出现意外的错误。CUDA的错误是:
CUDA_ERROR_LAUNCH_TIMEOUT。
>在gpuBench在75
CUDA执行过程中出现意外的错误。CUDA的错误是:
CUDA_ERROR_LAUNCH_TIMEOUT。

误差在C: \程序
文件\ MATLAB工具箱\ R2011b \ \ distcomp \ gpu \ +并行\ +内部\ + gpu \ currentDeviceFreeMem.p > currentDeviceFreeMem
(第7行)

误差在parallel.gpu.CUDADevice / get.FreeMemory(线107)
FM = parallel.internal.gpu.currentDeviceFreeMem();

gpuBench> gettestsize中的错误(第371行)
内存管理= gpu.FreeMemory;

误差在gpuBench> runMTimes(线163)
尺寸= getTestSizes(类型,safetyFactor,设备);

误差在gpuBench(线76)
gpuData = runMTimes(gpuData,代表, '双', 'GPU',progressTitle,numTasks);

谢谢,
戴夫

本Tordoff

你好特里斯坦,

GPUBench只有基准测试一次一个GPU。因为它只是使用当前的设备,你可以使用“gpuDevice(N)”来调用它之前选择的第n个GPU。不过,NVIDIA的驱动程序通常默认为最强大的卡头,所以如果你只得到结果表示更广泛的问题,您最慢的卡。你可以尝试做:

>> gpuDeviceCount()

确保找到所有四个设备?你可以试试

>>为II = 1:gpuDeviceCount(),gpuDevice(ii)中,端

打印出的所有卡的细节发现。你需要确保所有的人都有“DeviceSupported”标志设置为1。万博1manbetx

我从来没有见过你报道的特定错误,并期待NVIDIA的论坛,他们说,这很有可能是由硬件问题引起的,一旦你打它,你必须重启充分冲洗内存:

http://forums.nvidia.com/index.php?showtopic=204333

这听起来并不好,我怕!
让我知道你是怎么办的。

我已经尝试运行基准。我有3特斯拉和在我的机器一四极。我注意到,正在不惜一切只用我的第四个GPU。基准的失败为19%,出现以下错误:
CUDA执行过程中出现意外的错误。CUDA的错误是:CUDA_ERROR_ECC_UNCORRECTABLE。

误差在C: \程序
文件\ MATLAB工具箱\ R2011b \ \ distcomp \ gpu \ +并行\ +内部\ + gpu \ currentDeviceFreeMem.p > currentDeviceFreeMem
(第7行)

误差在parallel.gpu.CUDADevice / get.FreeMemory(线107)
FM = parallel.internal.gpu.currentDeviceFreeMem();

gpuBench> gettestsize中的错误(第371行)
内存管理= gpu.FreeMemory;

误差在gpuBench> runMTimes(线163)
尺寸= getTestSizes(类型,safetyFactor,设备);

误差在gpuBench(线76)
gpuData = runMTimes(gpuData,代表, '双', 'GPU',progressTitle,numTasks);

非常感谢您对这个帮助。

托马斯

GPU的良好基准

更新

1.11.0.0

更新报告的风格。
删除警告有关老预存的结果。

1.10.0.0

更新R2017b数据文件

1.10.0.0

添加R2017a的数据文件

1.9.0.0

*更新gpuBench的R2014b,…,R2016a的数据
*使用gputimeit清除gpuBench代码并删除死代码
*让gpuBench稳健运行具有-nodesktop或-nojvm MATLAB时

1.10.0.0

运行在R2014b的应用程序时,解决问题的数据位置

1.9.0.0

*改善与MATLAB R2014b兼容

1.8.0.0

使用MATLAB应用程序版本时,修复递归问题。

1.7.0.0

*添加数据文件的R2013b

1.6.0.0

*添加结果R2013a(包括K20!)

1.5.0.0

*禁止有关结果被跳过的警告
*现在包括一组预先存储的主机PC的数据,让你得到时,只是观察报告粗略CPU / GPU的比较
*用于MTIMES减少最大大小,以避免内存不足

1.4.0.0

*添加一个与R2012b及以上版本一起使用的“app”版本
*更新R2012a和R2012b的数据文件

1.2.0.0

尽量避免超时被击中上碰巧被驱动显示以及非常慢的GPU。

1.1.0.0

添加数据C2075

MATLAB版本兼容性
创建与R2013b
兼容任何版本
平台的兼容性
视窗 苹果系统 Linux