「Apache Solr」の検索機能として、「データ定義機能」「検索タイプ」について紹介。

「Apache Solr」の検索機能

「Apache Solr」の検索機能として、「データ定義機能」「検索タイプ」について紹介。

■関連する比較ページ

データ定義機能

Apache Solrでは、「スキーマ/スキーマレス」「フィールドタイプ」「分析プロセス」「ドキュメント構造」などを簡単に定義できるようになっています。

サポートされていない独自形式データ型も処理できるように拡張できます。

■データ駆動型スキーマ

スキーマレス型(データ駆動型スキーマ)を使用すると、簡単に開始できます。

構成済スキーマ型に切り替えると、堅固な本番環境として利用できます。

■動的フィールド

動的フィールドを使用すると、フィールド名に基づいてフィールドタイプに自動マップされる新しいフィールドをオンザフライで追加できます。

明示的タイプを使用すると、フィールドタイプ推測によるノイズを排除できます。

■Solrフィールドタイプ

Solrフィールドタイプを使用すると、コードを記述せずにLuceneアナライザーを宣言的に組み合わせることが簡単になります。

・charフィルター:トークン化の前にテキストを編集
・トークナイザー:テキストを用語に分割
・トークンフィルター:用語を変換

検索タイプ

■ファセット(フィルタリング)検索

「ファセット」とは「物事の側面や切り口」意味します。

「ファセット検索」とは『あらかじめWebサイト側が用意した検索条件をユーザーが選択することで、Webサイト内のコンテンツを絞り込めるナビゲーションの仕組み』を指します。

Apache Solrに用意されている多数のファセットアルゴリズムを使用した多様なデータスライスにより、データのグループ化と整理をサポートします。

・範囲ファセット---時間と数値コンテンツをわかりやすいバケットにグループ化
・複数選択ファセット---ファセットが元の結果セットとどのように相互作用するか?
・ピボットファセット---「もしも」の質問

■ロケーションベース検索

Solrの位置認識検索組み込みサポートにより、ロケーションベース検索を簡単に有効にできます。

「緯度」「経度」などの空間データ表現をサポートしているため、位置に基づくコンテンツの検索およびフィルタリングが可能です。

■多言語対応検索

Solrは、「英語」「日本語」「ドイツ語」「フランス語」などの、世界で広く話されている主要言語をサポートしています。

多言語コンテンツのインデックス作成とクエリが可能で、多くの分析ツールにより高度に構成可能なテキスト分析を実施できます。

■ドキュメント(リッチコンテンツ)検索

コンテンツ分析ツールキット「ApacheTika」は、「Wordファイル」「Excelファイル」「PowerPointファイル」「PDFファイル」などの、1000を超えるさまざまなファイルタイプからメタデータとテキストを検出して抽出します。

ApacheTikaは、これらのファイルタイプについて、すべて単一インターフェースを介して解析できるため、「検索エンジンのインデックス作成」「コンテンツ分析」「翻訳」などで効果的に利用できます。

→tika.apache.org

SolrにはApacheTikaが組み込まれているため、コードを1行も記述せずに、リッチコンテンツタイプの抽出と処理が可能です。

高度な処理オプションにより、抽出されたリッチコンテンツにインデックスを付ける方法を簡単に制御できます。

■エンティティ識別検索

「Apache UIMA」は、大量の非構造化情報を分析するソフトウェアシステムです。

プレーンテキストを取り込んで、「言語識別」→「言語固有セグメンテーション」→「文の境界検出」→「エンティティ検出」のようにして、「人」「場所」「組織」などのエンティティを識別します。

→uima.apache.org

SolrにはApache UIMAが統合されているため、エンティティ識別検索を活用できます。




参考元サイト

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

Apache Solr最新TOPICS

【OSS】全文検索エンジン「Apache Lucene 7.1.0」+検索プラットフォーム「Apache Solr 7.1.0」リリース(2017年10月24日 11:03)

Apache Software Foundation「Luceneプロジェクト管理委員会」は、10月17日、 全文検索エンジン「Apache Lucene 7.1.0」および検索プラットフォーム「Apache Solr 7.1.0」の公開を発表した。 【「Apache Lucene」とは】 https://www.ossnews.jp/oss_info/Apache_Lucene ...

Apache Solr最新CLOSEUPコラム

イベント情報

セミナー講演資料

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

データ分析の課題をAWS Analyticsサービスで解決する方法

ビッグデータ処理のデータベースとして MySQL HeatWave が最適な理由 〜AWS Aurora/Redshift、GCP BigQuery との性能&コスト比較〜

注目のDB技術「HTAP」とは? ~手軽に、かつ高速に、リアルタイム分析を実現する方法~

  • オープソース書籍(サイド)
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter