• camembertのノルムの計測。コンパイラオプションを変化させて計測したもの。 全く最適化していないものは、他のに比べて10分の1程度しか速度がでていない。
  • 次のは上のグラフの最初の一部を抜き出したもの。
  • 次のは一番キャッシュサイズが分かりそうなecc_O2のデータ。
  • この刻み幅を小さくしたものを3つ。3つのグラフのX軸は連続している。
  • ストライドを調べたもの.
  • アンロールを調べたもの。
  • 以下はedam。
  • まずはノルムの計算。ここでもコンパイラオプションの差は大きい。O3以外は まともな数値がでていない。2個めのはO3のやつだが、やった範囲では性能が 落ちることがなかった。
  • つぎのはedamのストライドの計測。
  • 次のはedamのアンロールの計算。1つめのはO3。2つめのはO0とO2。