マジセミドライブ

ウェビナー関連のニュースやITサービス＆ツールの最新情報を随時配信します。

TOP
記事一覧
【OSS情報アーカイブ】Apache Nutch

OSS情報

2020.01.01

【OSS情報アーカイブ】Apache Nutch

※当記事に記載されている情報は、古くなっている場合があります。オフィシャルサイトで最新情報をご確認ください。

コンテンツ

「Apache Nutch」とは

基本情報

概要

Apache Nutch(アパッチナッチ)とは、オープンソースのWebクローラフレームワークです。Apache Hadoopによる拡張性が特徴です。

基本説明

Apache Nutchは、指定されたWebリンクをたどりながら、ページ収集/スコアリングを行い、全文検索(Lucene)用のインデックスを生成します。

Apache Nutchは、Java製のWebクローラで、全文検索エンジン「Apache Lucene」のサブプロジェクトとして開発されました。全文検索エンジン「Apache Solr」、分散処理フレームワーク「Apache Hadoop」、コンテンツ検出/分析「Apache Tika」、インメモリデータモデル「Apache Gora」などのApacheプロジェクトで構築されています。

大規模Web検索向けに拡張性を持たせたフレームワークです。パーサ機能(Webページ/PDFファイル/その他ドキュメント)、クローラ機能、リンクグラフ/データベース機能などを搭載しています。

経緯

2010年4月、Apacheソフトウェア財団のトップレベルプロジェクトに指定されました。

2系統

「Nutch 1.x」系は、成熟し製品化準備の整ったクローラです。

「Nutch 2.x」系は、「Apache Gora」を用いることでストレージが抽象化され、永続的マッピングでオブジェクト処理できます。

主な特徴

ストレージ

大規模ストレージプラットフォーム(Apache Accumulo/Apache Avro/Apache Cassandra/Apache HBase/Apache HDFS)や、SQLベースストレージシステムに対して、ストレージの抽象レイヤとして追加できます。

Goraによるインメモリデータモデルを用いて、NoSQL/SQLデータベースを抽象化して利用できます。

インデックス

Nutchのインデックスは、Luceneのインデックスであるため、Lucene用インデックス管理GUIツールを使用して内容を確認できます。

プラグイン機能

プラグインでさまざまな機能追加を行えます。

パース/インデックス/評価フィルタなどの拡張インターフェースを提供しています。パースカスタム実装/インデックス機能などを追加できます。

Webページの言語判定を行い、検索キーとして言語を指定できるようにすることも可能です。

負荷分散

Nutchは分散管理フレームワーク「Apache Hadoop」を採用してます。Googleが提唱した分散処理システム「MapReduce」が元になっています。

Hadoopクラスタを構成することにより、情報量が増えても分散対応し、大規模なクロールデータを複数サーバ上に分散保持できます。

小規模クローラから大規模Webクローラまで、さまざまなユースケースをカバーできます。

URLフィルタ機能

URLフィルタ設定を行うことで「任意のサイトの新着情報のみクロールする」ようなことを行えます。

同様製品

同様な機能を提供する製品として、次のようなものがあります。

オープンソース製品：「Apache ManifoldCF」「Heritrix」「S2Robot」など。

ライセンス情報

Apache Nutchのライセンスは「Apache License 2.0」です。このライセンスに従うことを条件として、ソースコードの改変と公開が許可されています。

ダウンロード

ダウンロードページ

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

この記事のタグ一覧

Apache Nutch

1

フリーワード検索

カテゴリー一覧

アクセスランキング

🏆ランク1位🏆
【AIツール実験室】楽曲作成ツール「 Suno AI 」〜AI生成ミュージックフェス〜
🏆ランク2位🏆
【OSS情報】ディスクイメージング(クローニング)ツール「 Clonezilla 」
🏆ランク3位🏆
【無料で使える】「ドキュメント管理」ツールまとめ
🏆ランク4位🏆
【AIツール実験室】画像生成AIツール「 Emi 」(前編)
🏆ランク5位🏆
【無料で使える】「暗号化」ツールまとめ
🏆ランク6位🏆
【ツール紹介】無料オープンソース「ビデオ監視ツール」まとめ3選
🏆ランク7位🏆
【無料で使える】「翻訳」ツールまとめ
🏆ランク8位🏆
【無料で使える】「プロジェクト管理」ツールまとめ
🏆ランク9位🏆
【無料で使える】「 OCR 」ツールまとめ
🏆ランク10位🏆
【無料で使える】「バックアップ」ツールまとめ

マジセミドライブ

【OSS情報アーカイブ】Apache Nutch

「Apache Nutch」とは

基本情報

概要

基本説明

経緯

2系統