当前位置：网站首页>将SSE指令转换为ARM NEON指令

将SSE指令转换为ARM NEON指令

2022-08-02 14:09:00 【虹夭】

注意事项

● 将sse指令转换为arm neon指令往往很难起到优化作用，甚至可能产生负优化，因此该部分优化仅供参考。

__mm_shuffle_ps转换

__mm_shuffle_ps的作用是将m1中取出两个元素放到m3的低位，根据的是_MM_SHUFFLE(i3,i2,i1,i0)的后两个数组，从m2中取出两个元素放到m3的高位，根据的是_MM_SHUFFLE(i3,i2,i1,i0)的前两个数字。

在这里插入图片描述

针对__mm_shuffle_ps的转换，sse2neon中大多使用load and store指令和type conversion操作进行组合，比如下面这个代码，对应__mm_shuffle_ps(a,b,__MM_SHUFFLE(2,2,0,0))。

FORCE_INLINE __m128 _mm_shuffle_ps_2200(__m128 a, __m128 b)
{
    
    float32x2_t a00 = vdup_lane_f32(vget_low_f32(vreinterpretq_f32_m128(a)), 0);
    float32x2_t b22 =
        vdup_lane_f32(vget_high_f32(vreinterpretq_f32_m128(b)), 0);
    return vreinterpretq_m128_f32(vcombine_f32(a00, b22));
}

直接使用类似上面的转换一定会造成性能的不升反降，最好的方法是在neon中寻找类似的操作，这部分操作主要集中在permutation，比如vtrn,vrev,vzip,vuzp等
比如上面的例子中：如果需要同时获取__mm_shuffle_ps(a,a,__MM_SHUFFLE(2,2,0,0))和__mm_shuffle_ps(a,a,__MM_SHUFFLE(3,3,1,1))时，可以使用vtrnq_32f(a,a)来获取，结果为float32x4x2_t类型，val[0]对应2200，val[1]对应3311。