Я хочу использовать встроенные инструкции или инструкции ассемблера для сдвига 64 8-битных элементов на 1 позицию. Например вот это (1, 2, 3,...., 63, 64) В этом (0, 1, 2, 3,...,62, 63) без потери элементов.
для 32 8-битных элементов и AVX, AVX2 вы можете сделать это: источник = (1,2,3,...,63, 64), маска = (0, 0, ...,255,...,0,0) (нужно, так как мы потеряли 1 элемент),
a = _mm256_sli_si256(src, 1);
src = _mm256_and_si256(src, mask);
src = _mm256_permute2f128_si256(src, src, 1);
src = _mm256_srli_si256(src, 15);
src = _mm256_add_epi16(a, src);
в результате src = (0, 1, 2, 3,...,62,63)
и какие параметры мне следует передать в _mm512_maskz_permutexvar_epi8, исходя из примера выше? Я новичок, не очень понимаю как работает эта инструкция
Вы можете использовать _mm512_maskz_permutexvar_epi8
:
__mmask64 k = 0xfffffffffffffffe;// zero lower 8-bit value
auto idx = _mm512_set_epi8(62, 61, ..., 0, 0); // shift all elements by one
return _mm512_maskz_permutexvar_epi8(k, id, src);
Вы наверняка сможете добиться этого с помощью
_mm512_maskz_permutexvar_epi8
.