camembertのノルムの計測。コンパイラオプションを変化させて計測したもの。
全く最適化していないものは、他のに比べて10分の1程度しか速度がでていない。
次のは上のグラフの最初の一部を抜き出したもの。
次のは一番キャッシュサイズが分かりそうなecc_O2のデータ。
この刻み幅を小さくしたものを3つ。3つのグラフのX軸は連続している。
ストライドを調べたもの.
アンロールを調べたもの。
以下はedam。
まずはノルムの計算。ここでもコンパイラオプションの差は大きい。O3以外は
まともな数値がでていない。2個めのはO3のやつだが、やった範囲では性能が
落ちることがなかった。
つぎのはedamのストライドの計測。
次のはedamのアンロールの計算。1つめのはO3。2つめのはO0とO2。