为什么统计的速度变化如此之大?

7次浏览(过去30天)

显示旧的注释

1月 2021年8月22日

0
链接

直接链接到这个问题

//www.tianjin-qmedu.com/matlabcentral/answers/1438314-why-does-the-speed-of-histcounts-vary-so-much

评论道: 1月 2021年8月22日

我有一个整数或浮点值的向量，并想计算出现的次数。

histcounts () 使用输入Edge的激光元素作为最后一个bin的上限，所以我必须添加一个比最大元素更大的数字才能正确计数。当值是整数时，这会使处理速度降低> 2:

                          %整数值:
                         
                          X = round((1:1e6) / 1);%也等同于“/ 10”
                         
                          X = X (randperm(numel(X)));
                         
                          Ux =唯一的(x);
                         
                          ux2 = [ux, Inf];
                         
                          Ux3 = [ux, 1e8];%任何巨大的数字
                         
                          Ux4 = [ux, ux(end) + 1];
                         
                          timeit(@() histcounts(x, ux))% 0.045
                         
                          timeit(@() histcounts(x, ux2))慢多了!!
                         
                          timeit(@() histcounts(x, ux3))% 0.199 %比Inf?
                         
                          timeit(@() histcounts(x, ux4))又快了
                         
                          % BinMethod=Integers是快速的，但箱子的数量是有限的:
                         
                          时间(@ ()histcounts (x,“BinMethod”，“整数”）)快!
                         
                          元素个数(histcounts (x,“BinMethod”，“整数”）)但是只有10001而不是1e6
                         
                          根据文档，这应该是65536 ?!?
                         
                          %浮点值:
                         
                          Y = rand(1,1e6);
                         
                          Uy =唯一的(y);
                         
                          uy2 = [uy, Inf];
                         
                          Uy3 = [uy, uy(end) + 1];
                         
                          timeit(@() histcounts(y, uy))% 0.11148
                         
                          timeit(@() histcounts(y, uy2))% 0.2066
                         
                          timeit(@() histcounts(y, uy3))% 0.2100
                         
                          % Local R2018b:类似的行为用于整数，浮点值处理更快:
                         
                          % 0.073 %整数，ux
                         
                          % 0.199 % [ux, Inf]
                         
                          % 0.189% [ux, 1e8]
                         
                          % 0.061 % [ux, ux(end + 1)]
                         
                          % 0.162%浮点数，uy
                         
                          % 0.167% [uy, Inf]
                         
                          % 0.315 % [uy, uy(结束)+ 1]%半速!!

我期望几乎相同的速度，因为工作量几乎相同。

顺便说一下，一个简单的计数函数也很快:

                          时间(@ ()simpleCount (x))% 0.0602
                         
                          时间(@ ()simpleCount (y))% 0.0628
                         
                          函数N = simpleccount (x)
                         
                          S = sort(x);
                         
                          q = [true, diff(S) ~= 0];
                         
                          N = diff([查找(q)，数字(x) + 1]);
                         
                          结束

histcounts () 将最后一个元素计算到前一个箱子中是没有用的，但是附加最后一个边会大大减慢处理速度。我已经向TWM发送了增强请求。

5个评论
显示隐藏 4旧的评论

1月 2021年8月22日

编辑:1月 2021年8月22日

@the骑自行车我已经把你的建议加进代码里了。是的，附加ux(end)+1不会导致减速，但例如1e8会。

@Adam Danz :如果想要每个数字出现的次数，展开最后一个bin将最后2个数字一起计数:

                                N = histcounts(1:4， [1,2,3,5])
                               
                                但是[1,1,1,1]是需要的

文档说，BinMethod=Integers将箱子限制在2^16=65'536。对于1e6数字，使用10’001箱。似乎“65'536个箱子”意味着65'537条边:

                                N = histcounts(1:65537，“BinMethod”，“整数”）;
                               
                                流('数字:%d最后一次计数:%d\n'， number (N)， N(end))
                               
                                %数字:65537最后一次计数:1
                               
                                N = histcounts(1:65538，“BinMethod”，“整数”）;
                               
                                流('数字:%d最后一次计数:%d\n'， number (N)， N(end))
                               
                                %数字:6555 ??最后一项:4 ??

不幸的是，由于这个原因，整数分箱模式不适用于1e6值。没有文档记录> 2^16个箱子发生了什么，我的代码不能保证，不同元素的数量不超过这个限制。

一个简单的C-mex函数比 histcounts () 没有2^16个箱子的限制:

                                / / CountInts.c
                               
                                // N = CountInts(x, low, high)
                               
                                //作者:Jan, Heidelberg, 2021，授权许可:CC BY-SA 3.0
                               
                                ＃包括“mex.h”
                               
                                无效mexFunction(int nlhs, mxArray *plhs[]， int nrhs, const mxArray *prhs[])
                               
                                ｛
                               
                                mwSignedIndex n, i, k, low, high;
                               
                                *X， *N;
                               
                                X = mxGetDoubles(prhs[0]);
                               
                                n = mxGetNumberOfElements(prhs[0]);
                               
                                low = (mwSignedIndex) mxGetScalar(prhs[1]);
                               
                                high = (mwSignedIndex) mxGetScalar(prhs[2]);
                               
                                plhs[0] = mxCreateDoubleMatrix(1，高-低+ 1,mxREAL);
                               
                                N = mxGetDoubles(plhs[0]);
                               
                                N -=低;//移动指针N，使X[i]=low增加N[0]:
                               
                                为(i = 0;I < n;我+ +){
                               
                                k = (mwSignedIndex) X[i];
                               
                                如果(k >= low && k <= high) {
                               
                                + + (N [k]);
                               
                                ｝
                               
                                ｝
                               
                                ｝

如果N被创建为UINT32向量，这甚至快10倍 histcounts () ．

1月 2021年8月22日

@Adam Danz 谢谢你提供这么有用的信息。

登录评论。

登录回答这个问题。

答案(1)

布鲁诺陈德良 2021年8月22日

1
链接

直接链接到这个答案

//www.tianjin-qmedu.com/matlabcentral/answers/1438314-why-does-the-speed-of-histcounts-vary-so-much#answer_772244

这只是一个假设，但histcounts可能对有限边值使用二分搜索。大的最后边缘可能惩罚速度。不确定如何处理Inf与bonary搜索(可能是一个额外的比较检查?)

2的评论
显示隐藏旧的注释

1月 2021年8月22日

编辑:1月 2021年8月22日

我同意。它看起来像 histcounts () 应用一些关于箱子的有根据的猜测，但在Inf作为最终元素的情况下，这太聪明了。

BinMethod设置为“Integers”时，限制为2^16(或2^16+1)个箱子，听起来像是应用了查找表方法。据我所知，它没有被记录下来 histcounts () 适用于大于2^16个元素。简单的LUT方法更快:

                                   X = randi([0,255]， 1,1e6);
                                  
                                   时间(@ ()histcounts (x,“BinMethod”，“整数”）)
                                  
                                     Ans = 0.0081

                                   timeit(@() lutCount(x, 0,255))
                                  
                                     Ans = 0.0036

                                   %不事先知道极限的更公平测试:
                                  
                                   timeit(@() lutCount(x, min(x)， max(x)))
                                  
                                     Ans = 0.0047

另一种选择 accumarray 是不是更快也:

                                   时间(@ ()accumarray (x。' - (min(x) - 1)， 1))
                                  
                                     Ans = 0.0047

                                   函数N = lutCount(x, low, high)
                                  
                                   N = 0(1，高-低+ 1);
                                  
                                   Pad = 1 - low;
                                  
                                   为K = 1:数字(x)
                                  
                                   A = x(k) + pad;
                                  
                                   N(a) = N(a) + 1;邪恶:没有数组限制检查…
                                  
                                   结束
                                  
                                   结束

使用我的另一个注释中的CountInts.c-Mex函数，加速会更高。

我的结论是: histcounts 当不需要智能装箱时，对元素计数效率不高。BinMethod 'Integers'在可以保证2^16个箱子足够的情况下是有用的——换句话说:这是无声bug的原因。

注意:在Matlab在线速度测量是脆弱的。请在本地机器上重复此操作。

布鲁诺陈德良 2021年8月22日

BinMethod 'Integers'在可以保证2^16个箱子足够的情况下是有用的

把你的手拿过来用 accumarray 代替。

登录评论。

登录回答这个问题。

类别

MATLAB 图形 2-D和3-D图线情节

了解更多线情节在帮助中心而且文件交换

s manbetx 845

MATLAB

释放

R2021a

社区寻宝

在MATLAB Central中找到宝藏，并发现社区如何帮助您!

开始狩猎!

为什么统计的速度变化如此之大?

5个评论
显示隐藏 4旧的评论

答案(1)

2的评论
显示隐藏旧的注释

另请参阅

类别

标签

s manbetx 845

释放

社区寻宝

为什么统计的速度变化如此之大?

5个评论 显示隐藏 4旧的评论

答案(1)

2的评论 显示隐藏旧的注释

另请参阅

类别

标签

s manbetx 845

释放

社区寻宝

5个评论
显示隐藏 4旧的评论

2的评论
显示隐藏旧的注释