if文とかswitch文とかがあると、きっとストールするんだろうなぁと勝手に思っていて、
使わない代わりに 32x32 の行列演算をさせていたんだけど、
行列の要素の70%が0となってしまっていたので、そう言った場合は、
素直に switch文で切り替えた方が良い感じ。
というわけで、926.7Mbps -> 1.01Gbps に高速化!
__constantや__globalなメモリを参照する箇所を減らすために、
参照回数が多い場合は __local なキャッシュに一度コピーしてから参照するように改良。
16MBの時のスループットが、779.8Mbps ->926.7Mbpsに向上