ATI Stream PowerToysにPCIe Speed Testという物があって、
それによるとPCとGPU間の転送は4GB/sぐらい出てるみたい。
だけど、OpenCLのclEnqueueWriteBufferを使うとがんばっても2GB/sしか出ない。
ふとしたきっかけでリモートデスクトップ経由で使ってみたら、3GB/sも出た。
(だけど、リモートデスクトップ経由だとkernelの処理効率が三割ぐらい落ちる)
OpenCL周りの最適化不足が原因...? 結構基本的なところだと思うけど。