cudaconv——执行二维卷积使用NVIDIA图形芯片。
对于大数据集(~ 100万元素),特别是对于大型内核(性能与内核大小规模不大)cudaconv可以超越conv2高达5000%。
我没有创建这个算法. .它改编自一个例子包括在CUDA SDK和裹着MATLAB-compatible C代码。
非常大的数据矩阵,它完全可以* *崩溃你的电脑(/显卡驱动?),所以要小心。在测试中,我发现一个上限卷积大小(有限大小的CUDA FFT函数可以接受或2 d纹理)的大小约为2 ^ 20元素,所以上面的代码打破了卷积成更小的碎片。如果你有冒险精神,随时提高限制,但请注意,在这些大小cudaconv已经比conv2快大约50 - 100 x。
引用作为
亚历山大·胡特(2023)。快2 d基于gpu的卷积(//www.tianjin-qmedu.com/matlabcentral/fileexchange/20220-fast-2d-gpu-based-convolution), MATLAB中央文件交换。检索。
cudaconv /
版本 | 发表 | 发布说明 | |
---|---|---|---|
1.0.0.0 | 更新的帮助,包括测试脚本和图像的基准。 |