Bulldozerコアとは? わかりやすく解説

Bulldozerコア

出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/02/11 04:27 UTC 版)

Bulldozer (マイクロアーキテクチャ)」の記事における「Bulldozerコア」の解説

Bulldozerプロセッサのある一部2つスレッドの間で共有され、またある一部スレッドごとに固有である技法、「クラスタード・マルチスレッディング(CMT)」を駆使する型破りなマルチスレッディングへのそのようなアプローチ以前の例は、2005年サン・マイクロシステムズUltraSPARC T1プロセッサにまで遡ることができる。 ハードウェア複雑さ機能性観点から、ブルドーザーCMTモジュールは、整数演算能力においてデュアルコアプロセッサと、浮動小数点演算能力の点においては、同じCMTモジュール実行されている両方スレッド浮動小数点命令コード飽和しているかどうかそして、FPU128ビットまたは256ビット浮動小数点演算実行しているかどうかに応じてシングルコアまたはハンディキャップのあるデュアルコアプロセッサいずれか同等である。この理由は、つまり同じモジュール内に、2つ整数コアごとに、128ビットFMAC実行ユニットの対からなる単一FPU存在するためである。 CMTは、ある意味SMT単純だが、類似した設計哲学である; どちらの設計も、実行ユニット効率的に利用しようとする; どちらの方法でも、2つスレッド一部実行パイプラインめぐって競合すると、1つそれ以上スレッドパフォーマンス低下する専用整数コアにより、Bulldozerファミリーモジュールは完全に整数であるか、整数浮動小数点計算混在するコードセクションで、ほぼデュアルコアの、デュアルスレッドプロセッサのように動作した; ただし、SMT共有浮動小数点パイプライン使用するため、モジュールは、浮動小数点命令飽和スレッドペアについてシングルコアのデュアルスレッドSMTプロセッサ(SMT2)と同様に振る舞う。(これらの最後2つ比較どちらもプロセッサそれぞれ整数単位浮動小数点単位で、等幅同等能力のある実行コア持っていることを前提としている。) CMTSMTどちらも整数浮動小数点コードスレッドペア実行しているときに最大効果発揮するCMT両方共に整数コードから成るスレッドペア作業している間、最高の効果維持し一方SMTの下では、整数実行ユニット競合により一方または両方スレッドパフォーマンス低下するCMT欠点シングルスレッド場合アイドル状態整数実行ユニットの数が増えることである。シングルスレッド場合CMTモジュール内の整数実行ユニット最大半分使用するように制限されているが、SMTそのような制限課していない。2つCMTコアと同じ幅で高速整数回路備えた大規模なSMTコアは、理論上シングルスレッド場合瞬間的に最大2倍の整数パフォーマンス発揮する。(一般的なコード全体としてより現実的には、ポラックの法則は 2 {\displaystyle {\sqrt {2}}} のスピードアップ係数、つまりパフォーマンスの約40%の向上を推定する。) CMTプロセッサ一般的なSMTプロセッサは、スレッドペア間でL2キャッシュ効率的に共有して使用する点で類似している。 モジュールは、2つの「従来の」x86アウトオブオーダー処理コアカップリング構成されている。処理コアは、パイプライン初期段階例えば L1命令(キャッシュ)、フェッチデコードなど)、FPU、およびモジュール残り部分と共にL2キャッシュ共有する。各モジュールには、次の独立したハードウェアリソースがある。 1コアあたり16KBの4ウェイL1データ(キャッシュ)(ウェイ予測)および1モジュールあたり2ウェイ64KBのL1命令(キャッシュ)、2つコアそれぞれに1ウェイ 1モジュールごとに2MBL2キャッシュ2つ整数コア間で共有Write Coalescing(合体) Cache(W.C.C.)は、BulldozerマイクロアーキテクチャにおいてL2キャッシュ一部である特別なキャッシュである。 1モジュール内の両方のL1データキャッシュからのストアは、W.C.C.を通過し、そこでバッファリングおよび合体される。W.C.C.のタスクは、L2キャッシュへの書き込み数を減らすことである。 2つ専用整数コアそれぞれの整数コア2つALU2つAGU含まれており、1コアごとの1クロックごとに合計4つ独立した算術演算メモリ操作が可能である。 –整数スケジューラ実行パイプライン複製することは、2つスレッドそれぞれに専用ハードウェア提供されマルチスレッド整数負荷性能が2倍になる。 –モジュール2番目の整数コアは、Bulldozerモジュールダイを約12増加させ、チップレベルでダイスペース全体の約5%が追加されるモジュールごとに2つ対称128ビットFMAC(融合積和演算機能つき)浮動小数点パイプライン整数コア1つAVX命令2つ対称x87/MMX/SSE対応浮動小数点パイプラインディスパッチして、SSE2非最適化ソフトウェアとの下位互換性確保する場合1つ大きな256ビット幅ユニット統合できる。各FMACユニットは、可変レイテンシーでの除算および平方根演算も可能である。 存在するすべてのモジュールは、高度なデュアルチャネルメモリサブシステム(IMC統合メモリコントローラー)と同様にL3キャッシュ共有する1つモジュールには、(2MB共有L2キャッシュを含む)オロチダイ上の30.9mm²のエリアに2億1300個のトランジスタがある。 Bulldozerパイプライン深さは(同様にPiledriverSteamrollerも)、前身K10コア12サイクル比較して20サイクルである。 より長いパイプラインにより、Bulldozerファミリープロセッサは、前身K10比較してはるかに高いクロック周波数達成することができた。これにより周波数スループット向上したが、パイプライン長くなると、レイテンシ増加し分岐予測予測ミスによるペナルティ増加したBulldozer整数コアの幅(4 = (2ALU + 2AGU))は、K10コアの幅(6 = (3ALU + 3AGU))よりもいくらか狭くなっている。BobcatJaguar4つワイド整数コア使用したが、まだより軽い実行ユニットで:1つALU1つ単純なALU1つロードAGU1つストアAGUである。 JaguarK10、およびBulldozerコアの(命令)発行幅(およびサイクルごとの命令実行ピーク)は、それぞれ2、3、および4である。これにより、BulldozerはJaguar/Bobcatと比較してよりスーパースカラーデザインになったしかしながら、(第1世代設計には改良最適化がないことに加えてK10コアがやや広いため、Bulldozerアーキテクチャ通常前身K10比較してやや低いIPC実行された。BulldozerファミリーIPCPhenom IIなどのK10プロセッサIPC明らかに上回り始めたのは、PiledriverSteamroller行われた改良が行われるまではなかった。

※この「Bulldozerコア」の解説は、「Bulldozer (マイクロアーキテクチャ)」の解説の一部です。
「Bulldozerコア」を含む「Bulldozer (マイクロアーキテクチャ)」の記事については、「Bulldozer (マイクロアーキテクチャ)」の概要を参照ください。

ウィキペディア小見出し辞書の「Bulldozerコア」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。 お問い合わせ



英和和英テキスト翻訳>> Weblio翻訳
英語⇒日本語日本語⇒英語
  

辞書ショートカット

すべての辞書の索引

「Bulldozerコア」の関連用語

Bulldozerコアのお隣キーワード
検索ランキング

   

英語⇒日本語
日本語⇒英語
   



Bulldozerコアのページの著作権
Weblio 辞書 情報提供元は 参加元一覧 にて確認できます。

   
ウィキペディアウィキペディア
Text is available under GNU Free Documentation License (GFDL).
Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、WikipediaのBulldozer (マイクロアーキテクチャ) (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

©2025 GRAS Group, Inc.RSS