R
mir waere es neu dass man matrix-transponieren so oft braeuchte, kenne noch niemanden der deswegen ein perofrmance-problem haette. was aber doch sehr peinlich ist, ist dass es bis heute kein dot-product gibt. das ist schon recht albern.
erstmal steht SSE128 bei amd an, damit schafft man es doch tatsaechlich nicht nur mit 64bit performance zu arbeiten und dann in 2jahren (wohl eher 3) SSE5, und schwubs hat man es nach ewigkeiten geschaft die grundfaehigkeiten in SSE hinein zu bekommen die jede andere SIMD cpu hat (siehe powerPC, Mips, Nec, etc.).
von anfang an ist SSE sowas von unnuetz. die grundlegensten dinge fehlen, MMX war um laengen besser.
wenn ihr euch mal ne schoene vector-cpu anschauen wollt: http://mrmrice.fx-world.org/vfpu.html
[edit]
kleiner ausschnit aus der featurelist
* 128 32bit IEEE float registers, with support for Nvidia halffloats, integer, and pixel format conversions (like 4444, 5650)
* 4x4, 3x3 and 2x2 matrix operations, with room to hold 8 4x4 matrices
* Vector and SIMD (single instruction, multiple data) instructions on 2, 3 or 4 values
* quaternion multiply
* Supports various functions ..reciprocal (1/x), one's complement, reciprocal square root
* Built in constants for common mathematical values like e, pi, 2/pi. pi/2
* Supports many common vector operations like scaling, dot product, cross product, transform by matrix
* Has a random number generator that can return integer and floating point values
* Prefix instructions that allow you to perform absolute value, change order of vector components, etc while performing vector operations
...