Apache Kafka(アパッチ カフカ)とは、分散メッセージングシステムです。「Pull型」「高スループット」などの特徴があり、ストリーミングデータパイプライン構築に使用できます。

オープンソースのビッグデータ処理ツール/Apache Kafkaとは

Apache Kafka(アパッチ カフカ)とは、分散メッセージングシステムです。「Pull型」「高スループット」などの特徴があり、ストリーミングデータパイプライン構築に使用できます。

基本情報

概要

Apache Kafka(アパッチ カフカ)とは、分散メッセージングシステムです。「Pull型」「高スループット」などの特徴があり、ストリーミングデータパイプライン構築に使用できます。

基本説明

Apache Kafkaは、分散環境において大規模データを高速に取り込むためのオープンソースツールです。

「高スループット」かつ「低レイテンシ」で、大量のデータを収集/配信するメッセージングシステムです。オンライン/オフライン両方のメッセージ取得に対応します。

経緯

Apache Kafkaは、LinkedInが開発したプロダクトです。

2011年に、LinkedInがオープンソース公開しました。

TOPに戻る

主な特徴

高速処理

Apache Kafkaは、大量のメッセージを高速処理できます。

LinkedInのベンチマークでは、「1秒間で200万メッセージ処理」を達成しています。低スペックのハードウェアでも、数ミリ秒の遅延で「1秒間で数十万メッセージ処理」が可能です。

「カーネルメモリキャッシュを最大限使用する」「ページキャッシュからネットワークのsocketへ効率よくデータを受け渡す」などの仕組みにより、高速処理を実現しています。

耐障害性クラスタ(Zookeeper)

Apache Kafkaは、分散環境運用コーディネーションエンジン「Apache ZooKeeper」を裏で動かして、複数のKafkaを連携させてクラスタ化します。クラスタ化により耐障害性を実現します。

「メッセージはディスクにファイルとして保存」「クラスタ内でレプリカを作成」などの仕組みにより、データ損失を防ぎます。

スケーラブル

Apache Kafkaは、Kafkaクラスタをダウンタイムなしで、柔軟かつ透過的に拡張できます。

3つのコンポーネント

Apache Kafkaは、3つのコンポーネント(Producer→Broker→Consumer)で構成されます。

「Producer」はメッセージの配信を行います。「Consumer」はメッセージの購読を行います。

「Broker」は、クラスタを構成するKafkaのコアで、「Producer」と「Consumer」の間で、メッセージの受け渡しをするキューとして機能します。

Pull型

一般的なクライアントサーバモデルにおいて、クライアントがサーバにデータを取りに行くことを「Pull」、サーバがクライアントへデータを送り出すことを「Push」といいます。

Apache Kafkaは、Pull型(Publish-Subscribeモデル)を採用しています。

Pull型であることの主なメリット
・Brokerがデータ転送量などを意識する必要がない
・Consumerが自らスループット調整できる
・バッチ処理にも対応できる

可視化ツール「Trifecta」

可視化ツール「Trifecta」を利用すると、Kafkaメッセージを可視化できます。

ユースケース

Apache Kafkaの主なユースケースは次の通りです。
・メッセージング:発行-購読のメッセージパターンによるメッセージブローカー
・アクティビティ追跡:Webアプリケーション内でのユーザアクティビティ分析など
・集計:さまざまなストリームからの情報を集計(ログ集約など)
・変換:入力ストリームを結合し変換処理

TOPに戻る

同様製品

同様な機能を提供する製品として、次のようなものがあります。

オープンソース製品:「Apache Storm」「Fluentd」「Logstash」「Apache flume」など。

TOPに戻る

導入事例

Apache Kafkaは、「LinkeIn」「Twitter」「Netflix」「Uber」「Tumblr」などでの採用実績があります。

TOPに戻る

ライセンス情報

Apache Kafkaのライセンスは「Apache License 2.0」です。このライセンスに従うことを条件として、ソースコードの改変と公開が許可されています。

TOPに戻る

ダウンロード

ダウンロードページ

TOPに戻る

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

Apache Kafka最新TOPICS

【講演資料を公開】4/19「米国におけるオープンソース最新活用状況」(2017年05月19日 09:15)

2017年04月19日(水)14:30~16:30 中央区のJJK会館2階多目的ホールA にて「米国におけるオープンソース最新活用状況」と題したセミナーが開催されました。 当日は、オープンソースに関心をお持ちの方々がご来場くださり、お陰様で盛況のうちに終了することができました。皆さま熱心に公聴され、メモを執る姿も多く見受けられましたました。 また、来場者アンケートでは多くのコメントを頂戴しまし...

Apache Kafka最新CLOSEUPコラム

  • オープソース書籍(サイド)

OSS×Cloud ACCESS RANKING

  • OSSNEWSに広告を掲載しませんか?

facebook

twitter