C
Mein Vorschlag ohne bitscan (+1 sse-instruktion; -7 integer-ops gegenüber masms Version) - wobei ich ebenso davon ausgehe, dass das nichts bringt. Da CPUS, die nur SSE2 unterstützen, grundsätzlich intern 64bit Datenpfade haben, besteht von vornherein bestenfalls eine Chance doppelter Geschwindigkeit gegenüber gewöhnlichen Integeroperationen. Das wird locker durch den erhöhten Organisationsaufwand aufgefressen.
.data
align 16
bias db 16 dup 80h
.code
movdqa xmm0, bias
movdqa xmm1, xmm0
paddb xmm0, x
paddb xmm1, y
movdqa xmm2, xmm1
pcmpgtb xmm1, xmm0 ; y > x
pcmpgtb xmm0, xmm2 ; x > y
pmovmskb eax, xmm0
pmovmskb edx, xmm1
cmp eax, edx
setg eax
P.S.: Der erhöhte Organisationsaufwand hier primär deshalb, weil pcmpgtb einen signed-Vergleich durchführt, deshalb die vorherige Addition.