SYSTEM DEVELOPMENT

STUDY GROUP

全文検索エンジン Solr について

solrについて勉強を始めたのでチョット、メモしておきたいと思います。
◆Solr(全文検索システム)
・検索エンジンライブラリApache Lucene(アパッチルシーン)をベースに構築
・RESTなAPI
・HTTPを使ってLuceneを利用するAPIを備える
・スケールアウトの仕組みを備える
・Webアプリケーションの構築が容易
・CNET社向けに開発された
・2006年1月、Apache Software Faundationへソースコードが寄贈され、OSS(オープンソースソフトウェア)となる
・小規模から大規模までその検索ニーズに対応可能
◆Solrの特徴
・膨大な検索結果からユーザの求めるドキュメントまで誘導するいろいろな仕組みを備える
・「ハイライト」
・検索結果一覧において、ユーザが入力したキーワードを太字で表示
・「ファセット」
・各ドキュメントの属性情報を利用し、ユーザに絞り込み検索結果の件数を表示
・「ソート」
・数値や日付などの属性値を使ってソート
・「More Like This」
・関連文書、類似文書を表示
・各種キャッシュにより高速な検索が可能
・検索頻度の高いクエリとその検索結果、ファセットの結果をJavaヒープ内にキャッシュ
・キャッシュを利用してインデックスファイルへのI/Oアクセス、再計算コストを抑え高速レスポンス
・検索頻度の高いクエリとその検索結果、ファセットの結果をJavaヒープ内にキャッシュ
・インデックスのレプリケーション機能
・マスタ(更新用サーバ)のインデックスをスレーブ(検索用サーバ】にコピー
・インデックスのレプリケーションタイミングをイベントハンドラで連動させる?
・分散検索、SolrCloudクラスタ機能により膨大なデータを扱える
・疑似リアルタイム検索
・HTTPリクエストを発行すると、JSON形式の検索結果がレスポンスとして返される
・JSON over HTTP でアクセスできる
・Java,C#,Perl,PHP,Ruby,Pythonなどが使用可能

menu