並列コンピュータとは？わかりやすく解説

並列計算（へいれつけいさん、英語: parallel computing）は、コンピュータにおいて特定の処理をいくつかの独立した小さな処理に細分化し、複数の処理装置（プロセッサ）上でそれぞれの処理を同時に実行させることである^[1]。並列コンピューティングや並列処理ともいう。

概要

大きな問題を解いたり、大量のデータを処理したりする過程は、より小さなサブタスクやサブデータグループの処理に分割できることが多い、という事実を利用して単位時間あたりの処理効率（スループット）の向上を図る手法である。

並列処理（並列計算）はスーパーコンピュータでは以前から採られている手法である。スーパーコンピュータの高い性能は、プロセッサ数やノード数がパーソナルコンピュータに比べて極めて多く、並列処理性能が高いことで実現している。

並列計算のために設計されたコンピュータは並列コンピュータという。並列コンピュータは当初スーパーコンピュータなどの高価で大規模なシステムのみに見られる設計だったが、パーソナルコンピュータや携帯機器でもCPUをマルチコア化し並列処理をさせることが当たり前になってきた。CPUのクロック周波数を上げることで処理性能向上させることには限界や問題が見えてきたからこの手法が採用されるようになった。

また並列処理に特化したコプロセッサであるGPUも、個人が（比較的気軽に）購入できる価格帯で販売されるようになってきており、PCに後付で搭載する形での使用も広まっている。GPUは当初は主に、コンピュータゲームの3DCG レンダリングなどの画像処理に使われていたので「GPU」と呼ばれることになったが、実際には並列処理全般に使うことができるものであり、こうした使用法をGPGPUといい、今ではディープラーニングや暗号資産のマイニングなど、現実的な時間内に処理しようとすると並列処理が必要となるさまざまな用途で使われるようになっている。

並列処理の歴史を遡ると、1958年にIBMの研究者ジョン・コックと Daniel Slotnick は数値計算における並列性の利用について初めて話し合っている^[2]。1962年には、バロース社が4プロセッサのコンピュータ D825 を発表した。→#歴史

関連する概念に並行計算（へいこうけいさん）があるが、並行計算は一つのタスクの計算を並列化することにとどまらず、複数の相互作用しうるタスクを、プロセスやスレッドなどをもちいて単一または複数の計算資源にスケジューリングするといった、より汎用性の高い処理をさす。並列計算は物理的に計算資源が複数なければ効果が得られないが、並行計算はたとえ計算資源が1つだけだったとしても、マルチタスクに対応したオペレーティングシステムがプロセッサ時間をスライスして各タスクの処理に割り当てることで効果が得られる。

特に、並列計算専用に設計されたコンピュータを用いずに、複数のパーソナルコンピュータやサーバ、スーパーコンピュータを接続することで並列計算を実現するものをコンピュータ・クラスターと呼ぶ。このクラスターをインターネットなどの広域ネットワーク上に分散させるものも、広義には並列計算に属すが、分散コンピューティングあるいはグリッド・コンピューティングと呼び、並列計算とは区別することが多い。

背景

従来、コンピュータソフトウェアは逐次的に計算されるものとして書かれてきた。問題を解くためにアルゴリズムが構築され、それによって逐次的に実行される命令列が生成される。その命令列は、コンピュータのCPU上で実行される。命令は一度に1つずつ実行される^[3]。

一方並列計算では、複数の計算ノードが同時並列的に動作して問題を解く。問題は独立した部分に分割され、各計算ノードがアルゴリズムの一部を同時並列的に実行する。計算ノードの実体は様々であり、マルチプロセッサ型のコンピュータの各CPUだったり、ネットワーク上のコンピュータだったり、専用ハードウェアだったり、それらの組合せだったりする^[3]。

1980年代から2004年まで、コンピュータの性能向上の主たる要因はクロック周波数の向上にあった。プログラムの実行時間は、命令数と1命令あたりの平均実行時間をかけたものに比例する。他の要因が全く変化しないと仮定すると、クロック周波数の向上によって1命令あたりの平均実行時間が減少する^[4]。

一方で、マイクロプロセッサの消費電力は $P=C\times V^{2}\times F$

アムダールの法則の概念を図示したもの。タスクが独立した二つの部分AとBから構成されている。Bは計算時間の約30%を占めている。がんばってBを改良して5倍の性能にしても、全体としての性能向上は少しでしかない。逆にAを2倍の性能に改良した方が全体性能はより向上する。

グスタフソンの法則は、アムダールの法則とも密接に関連する計算機工学における法則である。グスタフソンの法則は以下の式で表される。

\displaystyle S(P)=P-\alpha (P-1)

[1] I-10-8. 並列処理プログラミングの基本、並列化処理 | 日本OSS推進フォーラム

[G_Wilson-2] ^ ^a ^b ^c ^d ^e ^f Wilson, Gregory V. (1994年). “The History of the Development of Parallel Computing”. 2008年1月8日閲覧。

[llnltut-3] Blaise Barney. “Introduction to Parallel Computing”. Lawrence Livermore National Laboratory. 2007年11月9日閲覧。

[4] John L. Hennessy and David A. Patterson. Computer Architecture: A Quantitative Approach. 3rd edition, 2002. Morgan Kaufmann, ISBN 1558607242. Page 43.

[5] J. M. Rabaey. Digital Integrated Circuits. Prentice Hall, 1996.

[6] Laurie J. Flynn. Intel Halts Development of 2 New Microprocessors. New York Times, 2004年 5月8日

[7] G. Amdahl. The validity of the single processor approach to achieving large-scale computing capabilities. In Proceedings of AFIPS Spring Joint Computer Conference, pages 483–485, Atlantic City, N.J., April 1967. AFIPS Press.

[8] Reevaluating Amdahl's Law Archived 2007年9月27日, at the Wayback Machine. Communications of the ACM 31(5), 1988. pp. 532-533

[9] A. J. Bernstein, "Program Analysis for Parallel Processing,' IEEE Trans. on Electronic Computers, EC-15, Oct 66, 757-762.

[10] K. Hwang and F. A. Briggs. Computer architecture and parallel processing. McGraw-Hill, 1984.

[11] Leslie Lamport. "How to Make a Multiprocessor Computer That Correctly Executes Multiprocess Programs", IEEE Transactions on Computers, C-28,9 (September 1979), 690–691.

[12] Patterson and Hennessy, pg 748

[13] David E. Culler, Jaswinder Pal Singh, Anoop Gupta. Parallel Computer Architecture - A Hardware/Software Approach. Morgan Kaufmann Publishers, 1999. ISBN 1558603433, pg 15

[14] Culler et al, pg 15

[15] Yale Patt. "The Microprocessor Ten Years From Now: What Are The Challenges, How Do We Meet Them? Archived 2008年4月14日, at the Wayback Machine. (wmv). カーネギーメロン大学での講義（2004年4月）、2007年 11月7日閲覧

[Culler124-16] Culler et al, pg 124

[Culler125-17] Culler et al, pg 125

[PH713-18] Patterson and Hennessy, pg 713

[HP549-19] Hennessy and Patterson, pg 549

[20] Patterson and Hennessy, pg 714

[21] What is clustering? Webopedia computer dictionary. 2007年 11月7日閲覧

[22] Beowulf definition. PC Magazine. 2007年 11月7日閲覧

[23] Architecture share for 06/2007 Archived 2007年11月14日, at the Wayback Machine.. TOP500 Supercomputing Sites. ここでは、74.60%のマシンがクラスターとされている。2007年 11月7日閲覧

[24] Hennessy and Patterson, pg 537

[25] MPP Definition. PC Magazine. 2007年 11月7日閲覧

[26] SIGGRAPH 2005 - GPUをCPU的に活用するGPGPUの可能性マイコミジャーナル、2005年9月6日。2008年 4月5日閲覧

[27] Oleg Maslennikov (2002). Systematic Generation of Executing Programs for Processor Elements in Parallel ASIC or FPGA-Based Systems and Their Transformation into VHDL-Descriptions of Processor Element Control Units. Lecture Notes in Computer Science, 2328/2002:272.

[28] Y. Shimokawa, Y. Fuwa, N. Aramaki. A parallel ASIC VLSI neurocomputer for a large number of neurons and billion connections per second speed. IEEE International Joint Conference on Neural Networks, 1991年 11月18日-11月21日. 3: 2162–2167.

[29] K.P. Acken, M.J. Irwin, R.M. Owens. A Parallel ASIC Architecture for Efficient Fractal Image Coding. The Journal of VLSI Signal Processing, July 1998, 19(2):97–113(17)

[30] Andrew B. Kahng. "Scoping the Problem of DFM in the Semiconductor Industry Archived 2008年1月31日, at the Wayback Machine.." University of California, San Diego. 2004年 6月21日

[PH751-31] Patterson and Hennessy, pg 751

[32] PGI アクセラレータにおけるマルチ GPU の使用

[33] L.F. Menabrea, Sketch of the Analytic Engine Invented by Charles Babbage. Bibliothèque Universelle de Genève, 1842. 2007年 11月7日閲覧

[PH753-34] Patterson and Hennessy, pg 753

[35] Anthes, Gary (2001年11月19日). “The Power of Parallelism”. Computerworld. 2008年1月31日時点のオリジナルよりアーカイブ。2008年1月8日閲覧。

[36] Patterson and Hennessy, pg 749

[37] Patterson and Hennessy, pgs 749–750: 「いくつかの有益な技術を生み出したが、ILLIAC IV はコンピュータとしては失敗であった。当初計画した規模の4分の1しか構築できなかったにもかかわらず、1966年に800万ドルと見積もられていた費用は1972年には3100万ドルにまで膨れ上がった。（中略）おそらく最も悪名高いスーパーコンピュータであろう。プロジェクトは1965年に開始され、実際のアプリケーションが実行可能になったのは1976年だった」

[1]

[2]

[3]

[4]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[33]

[34]

[35]

[36]

[37]

表話編歴並列計算
総論	クラウドコンピューティンググリッド・コンピューティング高性能計算コンピュータ・クラスター分散コンピューティング
並列レベル	タスクデータビット命令
スレッド	スーパースレッディング（英語版）ハードウェアマルチスレッディング同時マルチスレッディングハイパースレッディング SIMT
理論	アムダールの法則グスタフソンの法則コスト効率性（英語版） Karp-Flatt metric（英語版） Parallel slowdown（英語版） Speedup（英語版）
要素	スレッドファイバープロセス PRAM Instruction window（英語版）
調整	キャッシュコヒーレンシ同期バリアマルチプロセッシングメモリコヒーレンスキャッシュ無効化 Application checkpointing（英語版）
プログラミング	スレッド (コンピュータ) 並列プログラミングモデル Implicit（英語版） Explicit（英語版）並行性フリンの分類 SISD SIMD MISD MIMD SPMD（英語版） Lock-freeとWait-freeアルゴリズム累積和
ハードウェア	スーパーコンピュータスーパースカラーベクトル計算機マルチプロセッシング対称型非対称型（英語版）マルチコアメモリ NUMA COMA（英語版）分散型（英語版）共有型分散共有型 MPP Beowulf
API	Ateji PX（英語版） Boostスレッド C++ AMP Charm++（英語版） Cilk（英語版） Coarray Fortran（英語版） CUDA Dryad（英語版） Global Arrays（英語版） Intel Cilk Plus（英語版） Intel Threading Building Blocks MPI OpenACC OpenCL OpenHMPP（英語版） OpenMP PVM POSIXスレッド UPC
問題	Embarrassingly parallel（英語版） Grand Challenge（英語版） Software lockout（英語版）
並行計算カテゴリ:並行計算カテゴリ:並列コンピューティング

表話編歴コンピュータ科学
ハードウェア	プリント基板周辺機器 Integrated Circuit (IC) Very Large Scale Integration (超大規模集積回路、VLSI) Systems on Chip (SoC) エネルギー消費 (グリーン・コンピューティング) EDA ハードウェアアクセラレーション
コンピュータシステムの構造	コンピュータ・アーキテクチャ組み込みシステムリアルタイムシステムディペンダビリティ
ネットワーク	ネットワーク・アーキテクチャ（英語版）通信プロトコルネットワーク・コンポーネント（英語版）ネットワーク・スケジューラ（英語版）ネットワーク性能評価（英語版）ネットワーク・サービス（英語版）
ソフトウェアの構造	インタプリタミドルウェア仮想マシンオペレーティングシステムソフトウェア品質
ソフトウェア記法（英語版）とツール	プログラミングパラダイムプログラミング言語コンパイラドメイン固有言語モデリング言語ソフトウェアフレームワーク統合開発環境ソフトウェア構成管理ソフトウェアライブラリソフトウェアリポジトリ
ソフトウェア開発	ソフトウェア開発プロセス要求分析ソフトウェア設計ソフトウェア構築（英語版）ソフトウェアデプロイメントソフトウェアメンテナンスプログラミングチーム（英語版）オープンソースモデル
計算理論	計算モデル形式言語オートマトン理論計算可能性理論計算複雑性理論コンピュータ科学における論理学（英語版）意味論
アルゴリズム	アルゴリズム（英語版）アルゴリズム解析アルゴリズム効率（英語版）乱択アルゴリズム計算幾何学
コンピューティングの数学	離散数学確率統計学数学ソフトウェア情報理論解析学数値解析
情報システム	データベース管理システム情報ストレージシステム企業情報システム社会情報システム（英語版）地理情報システム意思決定支援システムプロセス制御システムマルチメディア情報システム（英語版）データマイニング電子図書館コンピューティング・プラットフォームデジタルマーケティング World Wide Web 情報検索
セキュリティ	暗号理論形式手法セキュリティ・サービス（英語版）侵入検知システムハードウェア・セキュリティ（英語版）ネットワーク・セキュリティ情報セキュリティアプリケーション・セキュリティ（英語版）
ヒューマンコンピュータインタラクション	インタラクションデザインソーシャル・コンピューティング（英語版）ユビキタスコンピューティング可視化アクセシビリティ
並行性	並行コンピューティング並列コンピューティング分散コンピューティングマルチスレッディングマルチプロセッシング
人工知能	自然言語処理知識表現と推論コンピュータビジョン自動計画とスケジューリング検索手法制御手法人工知能の哲学（英語版）分散人工知能（英語版）
機械学習	教師あり学習教師なし学習強化学習マルチタスク学習（英語版）交差検証
グラフィックス	アニメーションレンダリング画像編集 GPU 複合現実バーチャル・リアリティ画像圧縮ソリッドモデリング
応用コンピューティング	電子商取引企業アプリケーション計算数学（英語版）計算物理学計算化学計算生物学計算社会科学計算工学（英語版）健康情報学デジタルアート電子出版サイバー戦争電子投票コンピュータゲームワードプロセッサーオペレーションズ・リサーチ教育工学文書管理システム
概要（英語版）カテゴリブックコモンズ

並列コンピュータとは？わかりやすく解説

並列計算

概要

背景

フリンの分類

並列性の分類

ビットレベルの並列性

命令レベルの並列性

データ並列性

タスク並列性

ハードウェア

メモリと通信

並列コンピュータの分類

マルチコア・コンピューティング

対称型マルチプロセッシング

分散コンピューティング

クラスターコンピューティング

超並列プロセッサ

グリッド・コンピューティング

専用並列コンピュータ

課題

関連項目

脚注

外部リンク