MixColumnsでは行列演算をさせているのですが、行列を__constant (readonlyな__global)から参照してました。なので、一度 __local にコピーしてから利用するように変更。その結果、16MBの時のスループットが482.1Mbpsから779.8Mbpsに向上