Apache Kafkaとは？わかりやすく解説

Apache Kafka^[1]
	Apache Kafka の公式ロゴマーク。
作者	LinkedIn
開発元	Apache Software Foundation
初版	2011年1月 (14年前)
安定版
	4.1.1 / 2025年11月12日 (49日前)
最新評価版	4.1.1 / 2025年11月12日 (49日前)
リポジトリ	github.com/apache/kafka;
プログラミング; 言語	Scala, Java
対応OS	クロスプラットフォーム
サポート状況	サポート中です。
種別	ストリーム・プロセッシング, メッセージブローカー、オープンソースソフトウェア
ライセンス	Apache License 2.0
公式サイト	kafka.apache.org
	テンプレートを表示

Apache Kafkaは、分散型イベントストアおよびストリーム処理プラットフォームである。Apacheソフトウェア財団が管理するオープンソースのシステムで、JavaとScalaを用いて実装されている。このプロジェクトは、リアルタイムのデータフィードを処理するための、統一された高スループット・低遅延のプラットフォームを提供することを目的としている。Kafka Connectと呼ばれるフレームワークを用いることにより、外部システムと接続しデータのインポート/エクスポートを行うことができるほか、ストリーム処理を行うアプリケーション向けのKafka Streamsライブラリが提供されている。通信の効率化を行うため、KafkaはTCP上でバイナリ形式による通信を行い、また「メッセージセット」と呼ばれる概念を導入し複数のメッセージをまとめて送受信することを可能にしている。これらの工夫により、Kafkaは「より大きなネットワークパケット、より大きなシーケンシャルなディスク操作、連続したメモリブロック（中略）を実現し、莫大な数のランダムなメッセージを線形に書き込むことができる^[4]」と主張する。

歴史

Kafkaは元々LinkedInで開発され、その後2011年初めにオープンソース化された。ジェイ・クレプス、ネーハ・ナルケデ（英語版）、ジュン・ラオによって共同で開発された^[5]。2012年10月23日にApache Incubatorから卒業した^[6]。このシステムの名称はフランツ・カフカに由来するが、クレプスはその理由として、Kafkaが「書くことに最適化されたシステム」であり、また彼がカフカの作品が好きだったためと語っている^[7]。

アプリケーション

Apache Kafkaはコミットログをベースにしており、ユーザーはそれをサブスクライブして、任意の数のシステムやリアルタイムアプリケーションにデータを公開することができる。Kafkaの採用例として、Uberにおける乗客とドライバーのマッチング管理、ブリティッシュガスのスマートホームサービスにおけるリアルタイム分析および予知保全の提供、LinkedIn全体における多数のリアルタイムサービスの実行などがある^[8]。

アーキテクチャ

Kafkaは、「プロデューサー」と呼ばれる任意の数のプロセスから送られてくるKey-Valueメッセージを保存する。データは、異なる「トピック」内の異なる「パーティション」に分割することができる。パーティション内では、メッセージはオフセット（パーティション内でのメッセージの位置）の順に記録され、タイムスタンプとともにインデックス化されて保存される。「コンシューマー」と呼ばれる他のプロセスは、パーティションからメッセージを読み取ることができる。ストリーム処理については、KafkaはStreams APIを提供しており、Kafkaからデータを取り出して、何らかの計算結果をKafkaに書き戻すJavaアプリケーションを書くことができる。また、Apache Kafkaは、Apache Apex、Apache Beam、Apache Flink、Apache Spark、Apache Storm、Apache NiFiなどのストリーム処理システムとも連携させることができる。

Kafkaは1台以上の「ブローカー」と呼ばれるサーバーから構成されるクラスタ上で動作し、全てのトピックのパーティションがクラスタノードに分散される。さらに、パーティションは複数のブローカーに複製されている。このアーキテクチャにより、Kafkaは大量のメッセージストリームをフォールトトレラントな方法で配信でき、Java Message Service (JMS)やAdvanced Message Queuing Protocol (AMQP) などの従来のメッセージングシステムの一部を代替できるようになった。バージョン0.11.0.0でトランザクション書き込みが実装され、Streams APIを用いたexactly-onceなストリーム処理が実現可能となった。

トピックには通常のトピックとコンパクト化されたトピックの2種類がある。通常のトピックにおいては保持時間または容量上限を設定することができる。指定された保持時間よりも古いレコードが存在する場合やパーティションの容量上限を超えた場合には、ストレージ領域を確保するために古いデータが削除される。コンパクト化されたトピックでは、あるキーを持つメッセージが送られてきた際に、同じキーを持つメッセージの更新としてそのメッセージを扱う。メッセージは期限切れや容量超過などの理由により削除されることはなく、特定のキーに対しNULL値を持ついわゆるtombstone（墓標）メッセージを書くことで初めて削除される。

Kafkaには、5つの主要なAPIがある。

メッセージの公開を行うためのProducer API
トピックをサブスクライブし、メッセージのストリームを処理するためのConsumer API
既存のアプリケーションにトピックをリンクさせることができるConnector API
入力されたストリームのメッセージを変換し別のストリームとして出力するためのStreams API
トピック、ブローカー、およびその他のKafkaオブジェクトを管理するためのAdmin API

Consumer APIとProducer APIは、基盤となるメッセージングプロトコルによってKafkaのコア機能から切り離されている。これにより、Consumer APIとProducer APIと互換性のあるAPIをJava以外の言語でも性能を保ったまま実装することができる。Apache Kafkaプロジェクトは、このようなサードパーティ製のAPIのリストを管理している。

Kafka API

Connector API

Kafka Connect（またはConnector API）は、バージョン0.9.0.0で追加された他のシステムとの間でデータをインポート/エクスポートするためのフレームワークである。Connectフレームワーク自体は、他のシステムからデータを読み書きするための実際のロジックが実装された、いわゆる「コネクター」を実行する。Connector APIは、カスタムコネクタを構築するために実装しなければならないプログラミングインターフェースを定義している。一般的なデータシステム向けのオープンソースおよび商用のコネクターは、すでに多数提供されている。しかし、Apache Kafka自体には、実用可能なコネクターは含まれていない。

Streams API

Kafka Streams（またはStreams API）は、Javaで記述されたストリーム処理ライブラリである。Kafka 0.10.0.0リリースで追加された。このライブラリにより、拡張性、伸縮性、耐障害性に優れたステートフルなストリーム処理を行うアプリケーションを開発できる。主なAPIはストリーム処理用のDSLで、フィルタ、マップ、グループ化、ウィンドウ、集約、結合、テーブルの概念などの一般的なストリーム操作を提供する。より詳細なストリーム処理の実装のためにProcessor APIも用意されており、DSLとProcessor APIを併用して処理を記述することもできる。ステートフルなストリーム処理のために、Kafka StreamsはRocksDBを使ってローカルな各演算子の状態を保持する。RocksDBはディスクへの書き込みが可能なため、保持される状態は利用可能なメモリ容量よりも大きくなる可能性がある。また、耐障害性の観点から、ローカルのステートストアへの更新はすべてKafkaクラスタのトピックに書き込まれる。このため、これらのトピックを読み込むことで状態を再現し、すべてのデータをRocksDBに送り込むことができる。

バージョンの互換性

バージョン0.9.xまでのKafkaブローカーは、古いクライアントとのみ後方互換性をもつ一方、バージョン0.10.0.0以降では、ブローカーは新しいクライアントと前方互換性もある。新しいクライアントが古いブローカーに接続した場合、ブローカーがサポートする機能のみを使用することができる。Streams APIについては、バージョン0.10.1.0から完全な互換性がある。0.10.1.0のKafka Streamsアプリケーションは、0.10.0や古いブローカーと互換性はない。

パフォーマンス

エンドツーエンドのパフォーマンスを監視するには、ブローカー、コンシューマー、プロデューサーのメトリクスを追跡する必要があり、さらにKafkaがコンシューマー間の調整に使用しているZooKeeperも監視する必要がある^[9]^[10]。現在、Kafkaのパフォーマンスを追跡するためのモニタリング・プラットフォームがいくつか存在する。これらのプラットフォームに加えて、Kafkaデータの収集は、JConsoleを含む一般的にJavaにバンドルされているツールを使用して実行することもできる^[11]。

参考文献

^ “Apache Kafka at GitHub”. github.com. 2018年3月5日閲覧。
^ “Open-sourcing Kafka, LinkedIn's distributed message queue”. 2016年10月27日閲覧。
^ ^a ^b “Release 4.1.1” (2025年11月12日). 2025年11月13日閲覧。
^ “Efficiency”. kafka.apache.org. 2019年9月19日閲覧。
^ Li, S. (2020).
^ “Apache Incubator: Kafka Incubation Status”. 2023年2月6日閲覧。
^ “What is the relation between Kafka, the writer, and Apache Kafka, the distributed messaging system?”. Quora. 2023年2月8日閲覧。
^ “What is Apache Kafka”. confluent.io. 2018年5月4日閲覧。
^ “Monitoring Kafka performance metrics” (英語) (2016年4月6日). 2016年10月5日閲覧。
^ Mouzakitis (2016年4月6日). “Monitoring Kafka performance metrics” (英語). datadoghq.com. 2016年10月5日閲覧。
^ “Collecting Kafka performance metrics - Datadog” (英語) (2016年4月6日). 2016年10月5日閲覧。

外部リンク

kafka.apache.org （英語）

[1] “Apache Kafka at GitHub”. github.com. 2018年3月5日閲覧。

[2] “Open-sourcing Kafka, LinkedIn's distributed message queue”. 2016年10月27日閲覧。

[wikidata-84e27d152500f0b4c3c5f170bf0a811d226d5e5f-v18-3] “Release 4.1.1” (2025年11月12日). 2025年11月13日閲覧。

[4] “Efficiency”. kafka.apache.org. 2019年9月19日閲覧。

[ForbesKreps-5] Li, S. (2020).

[6] “Apache Incubator: Kafka Incubation Status”. 2023年2月6日閲覧。

[7] “What is the relation between Kafka, the writer, and Apache Kafka, the distributed messaging system?”. Quora. 2023年2月8日閲覧。

[8] “What is Apache Kafka”. confluent.io. 2018年5月4日閲覧。

[9] “Monitoring Kafka performance metrics” (英語) (2016年4月6日). 2016年10月5日閲覧。

[10] Mouzakitis (2016年4月6日). “Monitoring Kafka performance metrics” (英語). datadoghq.com. 2016年10月5日閲覧。

[11] “Collecting Kafka performance metrics - Datadog” (英語) (2016年4月6日). 2016年10月5日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

表話編歴 Apacheソフトウェア財団
トップレベルプロジェクト	Accumulo（英語版） ActiveMQ Airflow Ambari（英語版） Ant Aries（英語版） Arrow Apache HTTP Server APR Avro Axis Axis2 Beam Bloodhound（英語版） Brooklyn（英語版） Buildr（英語版） Calcite（英語版） Camel（英語版） Cassandra Cayenne（英語版） Chemistry（英語版） CloudStack（英語版） Cocoon Cordova CouchDB cTAKES（英語版） CXF（英語版） Derby Directory（英語版） Drill Druid（英語版） Empire-db（英語版） Felix（英語版） Flex Flink（英語版） Flume（英語版） FreeMaker（英語版） Geronimo Giraph（英語版） Gump（英語版） Hadoop HBase Helix（英語版） Hive Impala（英語版） Jackrabbit（英語版） James Jena（英語版） Jini（英語版） JMeter（英語版） Kafka Kudu（英語版） Kylin（英語版） Lucene Mahout Maven MINA（英語版） mod perl（英語版） MyFaces（英語版） NetBeans Nutch（英語版） NuttX（英語版） OFBiz（英語版） Oozie（英語版） OpenEJB OpenJPA OpenNLP OpenOffice ORC（英語版） PDFBox（英語版） Parquet（英語版） Phoenix（英語版） POI Pig（英語版） Pinot（英語版） Pivot Qpid（英語版） Roller RocketMQ（英語版） Samza（英語版） ServiceMix（英語版） Shiro（英語版） SINGA（英語版） Sling（英語版） Solr Spark Storm（英語版） SpamAssassin Struts 1 Struts 2（英語版） Subversion Apache Superset SystemDS（英語版） Tapestry Thrift Tika（英語版） Tomcat Traffic Server（英語版） Turbine（英語版） UIMA（英語版） Velocity Wicket Xalan Xerces XMLBeans Yetus（英語版） ZooKeeper
Commons	BCEL（英語版） BSF（英語版） Collections Daemon（英語版） DBUtils Email IO Jelly（英語版） Lang Apache Commons Logging（英語版） Math
Incubator	MXNet（英語版） Taverna（英語版）
その他のプロジェクト	Apache Batik Chainsaw（英語版） FOP Ivy（英語版） log4j
Attic	Abdera（英語版） Apex（英語版） AxKit Beehive（英語版） Bluesky（英語版） iBATIS c++ Standard Library（英語版） Cactus（英語版） Click（英語版） Continuum（英語版） Deltacloud（英語版） Etch（英語版） Excalibur（英語版） Forrest（英語版） Hama（英語版） Harmony HiveMind（英語版） Jakarta Lenya（英語版） Marmotta（英語版） ODE（英語版） Shale（英語版） Slide（英語版） Shindig（ハンガリー語版） Stanbol（英語版） Tuscany（英語版） Wave（英語版） Wink（英語版） XML
ライセンス	Apache License
Category Commons

Apache Kafkaとは？わかりやすく解説

Apache Kafka

歴史

アプリケーション

アーキテクチャ

Kafka API

Connector API

Streams API

バージョンの互換性

パフォーマンス

関連項目

参考文献

外部リンク

英和和英テキスト翻訳

「Apache Kafka」の関連用語

Apache Kafkaとは？ わかりやすく解説

Apache Kafka

歴史

アプリケーション

アーキテクチャ

Kafka API

Connector API

Streams API

バージョンの互換性

パフォーマンス

関連項目

参考文献

外部リンク

英和和英テキスト翻訳

「Apache Kafka」の関連用語

Apache Kafkaとは？わかりやすく解説