Apache Solrでは、「スキーマ/スキーマレス」「フィールドタイプ」「分析プロセス」「ドキュメント構造」などを簡単に定義できるようになっています。
サポートされていない独自形式データ型も処理できるように拡張できます。
スキーマレス型(データ駆動型スキーマ)を使用すると、簡単に開始できます。
構成済スキーマ型に切り替えると、堅固な本番環境として利用できます。
動的フィールドを使用すると、フィールド名に基づいてフィールドタイプに自動マップされる新しいフィールドをオンザフライで追加できます。
明示的タイプを使用すると、フィールドタイプ推測によるノイズを排除できます。
Solrフィールドタイプを使用すると、コードを記述せずにLuceneアナライザーを宣言的に組み合わせることが簡単になります。
・charフィルター:トークン化の前にテキストを編集
・トークナイザー:テキストを用語に分割
・トークンフィルター:用語を変換
「ファセット」とは「物事の側面や切り口」意味します。
「ファセット検索」とは『あらかじめWebサイト側が用意した検索条件をユーザーが選択することで、Webサイト内のコンテンツを絞り込めるナビゲーションの仕組み』を指します。
Apache Solrに用意されている多数のファセットアルゴリズムを使用した多様なデータスライスにより、データのグループ化と整理をサポートします。
・範囲ファセット---時間と数値コンテンツをわかりやすいバケットにグループ化
・複数選択ファセット---ファセットが元の結果セットとどのように相互作用するか?
・ピボットファセット---「もしも」の質問
Solrの位置認識検索組み込みサポートにより、ロケーションベース検索を簡単に有効にできます。
「緯度」「経度」などの空間データ表現をサポートしているため、位置に基づくコンテンツの検索およびフィルタリングが可能です。
Solrは、「英語」「日本語」「ドイツ語」「フランス語」などの、世界で広く話されている主要言語をサポートしています。
多言語コンテンツのインデックス作成とクエリが可能で、多くの分析ツールにより高度に構成可能なテキスト分析を実施できます。
コンテンツ分析ツールキット「ApacheTika」は、「Wordファイル」「Excelファイル」「PowerPointファイル」「PDFファイル」などの、1000を超えるさまざまなファイルタイプからメタデータとテキストを検出して抽出します。
ApacheTikaは、これらのファイルタイプについて、すべて単一インターフェースを介して解析できるため、「検索エンジンのインデックス作成」「コンテンツ分析」「翻訳」などで効果的に利用できます。
SolrにはApacheTikaが組み込まれているため、コードを1行も記述せずに、リッチコンテンツタイプの抽出と処理が可能です。
高度な処理オプションにより、抽出されたリッチコンテンツにインデックスを付ける方法を簡単に制御できます。
「Apache UIMA」は、大量の非構造化情報を分析するソフトウェアシステムです。
プレーンテキストを取り込んで、「言語識別」→「言語固有セグメンテーション」→「文の境界検出」→「エンティティ検出」のようにして、「人」「場所」「組織」などのエンティティを識別します。
SolrにはApache UIMAが統合されているため、エンティティ識別検索を活用できます。
参考元サイト
※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。
Apache Software Foundation「Luceneプロジェクト管理委員会」は、10月17日、 全文検索エンジン「Apache Lucene 7.1.0」および検索プラットフォーム「Apache Solr 7.1.0」の公開を発表した。 【「Apache Lucene」とは】 https://www.ossnews.jp/oss_info/Apache_Lucene ...
OSS×Cloud ACCESS RANKING