【PC編】「2020.0921@★AVX2速い！★比較★SIMD命令、スレッド数」と「PCSX2@LINUX」と私

【PC編】「★AVX2速い！★比較★SIMD命令、スレッド数」と「PCSX2@LINUX」と私

と題しまして小話を１つ。

最近、話の多いプレステ2 エミュレータPCSX2ですが、

ーーーーーーーーーーーーーーーーーーーーーーーーーーー

・12コア12スレッド（プラグインはAVX２で設定）

・１２コア２４スレッド（同上）

・３種類あるグラフィックプラグイン（SSE2,SSE4,AVX2版）

ーーーーーーーーーーーーーーーーーーーーーーーーーーー

でCPUの負荷のかかり方を比較してみました。

＜１２コア１２スレッドの場合＠libGSdx-avx2-1.0,0.soの場合＞

時々、３，４個ほどのCPUの負荷が６０％を越えてきますが

それ以外のCPUの負荷は３０％〜４０％の範囲に収まってます。

＜１２コア２４スレッド＠libGSdx-avx2-1.0,0.soの場合＞

時々３，４程のCPUの負荷が６０％越えてきますが、

その他のCPUの負荷は２０％〜４０％の範囲で収まってます。

負荷の波形の重なりが多い部分を見ると２０％〜４０％の範囲ですね。

＜１２コア２４スレッド＠libGSdx-intel-sse4-1.0,0.soの場合＞

３，４個ほどCPUが６０％越えてきますが、他は、大半が２０％〜３０％になってます。

＜１２コア２４スレッド＠libGSdx-1.1.0の場合＞

３，４個ほどCPUが６０％越えてきますが、他は、大半が２０％〜３０％になってます。

ただし、６０％になってるCPUの時間がSSE４と比べるとえらく長い。

（１）グラフィックプラグインDLLによる負荷比較

プラグインの仕様としては、以下の感じです。

速度への影響をちょっと確認してみます。

プラグイン名称	対応するSIMD拡張命令
libGSdx1.1.0	SSE2
libGSdx-intel-sse4-1.0.0	SSE4
libGSdx-avx2-1.0.0	AVX2

グラフの中でCPU負荷が６０％を越えてる

CPUの高負荷持続時間（グラフの山の長さ）を比較してみると

SSE2（２０秒）、SSE4（１０秒）、AVX２（３秒）で山の長さが短くなっています。

負荷の山の長さが短いというのは処理が早く終わるということ。

SIMD（Single Instruction MultipleData)仕様が

新しいものほど、処理が高速化し処理が早く終わため、

グラフの山の長さが短くなっていると推測します。

AVX２にすると、SSE2の６倍以上処理が

速くなることになります。

６倍以上速くなるってバカになりません。

結構効いてきますね。

（２）１２スレッドと２４スレッドでの負荷比較

グラフを見ると１２スレッド版ではCPU負荷の中心が

３０％〜４０％に対して

２４スレッド版は、２０％〜３０％の負荷になってます。

ハイパースレッディング（SMT)をON／OFFでは

ONすると最大３割ぐらいCPUの処理効率がUPすると

聞いたことがありますが、

負荷のグラフを見た範囲で、ざっくり、だいたい、

合ってると思います。

以下、各SIMD拡張命令の解説

https://ja.wikipedia.org/wiki/%E3%82%B9%E3%83%88%E3%83%AA%E3%83%BC%E3%83%9F%E3%83%B3%E3%82%B0SIMD%E6%8B%A1%E5%BC%B5%E5%91%BD%E4%BB%A4#Intel_AVX2

（１）AVX2拡張命令

AVX拡張命令は、MMX/SSE後継のSIMD拡張命令セットで、

呼称がIntel Advanced Vector Extensions（AVX)となった。

Sandy Bridgeマイクロアーキテクチャで初めて搭載された^[10]^[11]。

浮動小数点演算の演算幅がSSEの2倍の256ビットとなり、

1命令で8つの単精度浮動小数点演算もしくは

4つの倍精度浮動小数点演算を実行することができる。

また、命令デコード性能向上のため、

新しい命令フォーマット（VEXエンコーディング）が採用されている。

3 or 4オペランドの非破壊型命令もサポートするため、

レジスタ退避・復元処理の記述を省くことができる。

この非破壊型の命令フォーマットに関しては

従来の128ビット幅のSSE命令にも使うことができるため、

AVXに対応したプロセッサでは新規に導入された

256ビット命令を使わなくてもSIMD演算の性能が向上する可能性がある。

SSEが導入された際には専用の128ビットレジスタが新設されたが、

AVXの256ビットレジスタは下位の128ビットを既存のSSEレジスタと共有している^[11]。

そのためSSE命令とAVX命令の間でのデータ交換は容易である。

ただし、256ビットのAVX命令と既存のSSE命令を混在させると、

SSE命令を実行する際にAVXレジスタの上位128ビットを退避する

というペナルティが発生するため、パフォーマンスが落ちる。

これを避けるためには、256ビット命令の実行後に

VZEROUPPER/VZEROALL命令を実行して明示的に

AVXレジスタの上位128ビットをクリアするか、

SSE命令をVEXエンコーディングを使ったものに置き換える必要がある。

VEXエンコーディングの128ビット命令はAVXレジスタの

上位128ビットを保持せずにゼロクリアするという挙動になっており、

AVXレジスタの部分的な書き換えが発生しないためである。

Sandy Bridgeでは当初のSSEの実装のように既存の128ビットの

演算器を使って2サイクルで実行するようなことはせず、

素直に乗算器や加算器などの演算器が256ビット幅に拡張されている^[10]。

これによって、実質的なピーク浮動小数点演算性能がNehalem世代の2倍となっている。

AVX2では、従来のSIMD整数演算命令が128ビットから256ビットに拡張されるのが

主な変更点であるが、要素ごとに独立したシフト量を設定できるシフト命令、

非連続なデータを並べ替えながらロードが可能なギャザー命令等の

新たな命令も実装される。AMDはExcavator アーキテクチャから

AVX2を実装している^[16]。ただし、SIMD演算ユニット自体はZen+まで

128bit幅に留まっていたため、AVX2命令を多様する処理はあまり

高速化されていなかった。Zen2世代からは256bit幅になり処理速度が改善。

（２）SSE４拡張命令

※余り記載がありません。

★SSE4.1[編集]

45nm世代のCore 2のPenrynで搭載。47個の命令が追加になる。

★SSE4.2[編集]

Nehalemマイクロアーキテクチャの第1世代Intel Core iで初めて実装された。

7個の命令を追加。SSE 4.2の追加命令は以下の通り。

String & Text New Instructions (STTNI)

＜PCMPESTRI＞

- PCMPESTRM
- PCMPISTRI
- PCMPISTRM
- PCMPGTQ
Application Targeted Accelerators(ATA)
- CRC-32
- POPCNT -ビットが立っている数を数える

（３）SSE2拡張命令

SSE拡張命令は、Pentium IIIにはじめて実装された。追加された命令数は70^[2]。

Pentium IIIの開発コードネームがKatmaiであったことから、

KNI (Katmai New Instructions) ^[3]やMMX2 ^[4]とも呼ばれていた。

廉価製品のCeleronにおいても、その第三世代製品 Coppermine-128k より

SSEに対応している^[5]^[6]。

SSE2拡張命令は従来のSSEに144個の新たな命令が加えられた^[2]。

具体的には64ビットの倍精度浮動小数点演算のサポート及び

MMXを128ビット幅に拡張する整数演算命令の追加、キャッシュの

制御機能の強化がなされた。

SSE2はPentium 4で初めて実装された^[9]。

AMDのAMD64 アーキテクチャでは、浮動小数点演算に

従来のx87命令ではなくSSE/SSE2のスカラ演算命令を

用いることを標準としたため、拡張命令ではなく基本命令として

SSE、SSE2が取り込まれている。

以下はハイパースレッディングに関するWIKIの解説です。

https://ja.wikipedia.org/wiki/%E3%83%8F%E3%82%A4%E3%83%91%E3%83%BC%E3%82%B9%E3%83%AC%E3%83%83%E3%83%87%E3%82%A3%E3%83%B3%E3%82%B0%E3%83%BB%E3%83%86%E3%82%AF%E3%83%8E%E3%83%AD%E3%82%B8%E3%83%BC

＜ハイパースレッディングによる効果＞

ハイパースレッディングの利点を以下に挙げる。

（１）マルチスレッドコードのサポートを改善する。

（２）多数のスレッドが同時に動作することを可能にする。

（３）メモリー入出力のレイテンシーを隠蔽しスループットを改善する。

インテルによると、NetBurstマイクロアーキテクチャにおける

最初の実装は「通常の」プロセッサへ5%の領域のみを追加するだけで、

15 - 30%の性能向上をもたらしたとしている。

では・・また・・：＿；）／

まーにゃ＠エンタメ系火事場エンジニアの日々

数々の「火だるまプロジェクト」を安請け合いし何度でも復活する「自称・不死身のエンジニア」の物欲まみれの日々をつづる

【PC編】「2020.0921@★AVX2速い！★比較★SIMD命令、スレッド数」と「PCSX2@LINUX」と私