Fix regression in assembleAndSum PQ decoder performance #379

jkni · 2024-12-24T19:49:54Z

Following #368, performance of the assembling PQ fragments suffers on 128-bit SIMD platforms from simulating vector operations. I first attempted implementing an 128-bit version, which improved performance relative to post-#368, but it did not restore performance to pre-#368 levels. As a result, I switched back to the scalar implementation on 128-bit platforms.

…t max vector width

…h is 128-bits

jkni added 2 commits December 24, 2024 13:40

Add implementations of decoding PQ similarities in SimdOps for 128-bi…

5f0ae0b

…t max vector width

Use scalar implementation for assembleAndSum if preferred vector widt…

f24d345

…h is 128-bits

jkni requested a review from marianotepper December 24, 2024 19:50

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix regression in assembleAndSum PQ decoder performance #379

Fix regression in assembleAndSum PQ decoder performance #379

jkni commented Dec 24, 2024

Fix regression in assembleAndSum PQ decoder performance #379

Are you sure you want to change the base?

Fix regression in assembleAndSum PQ decoder performance #379

Conversation

jkni commented Dec 24, 2024