形態素解析とは
検索システムでは、全文検索を行う必要があります。少数の小さな文書での全文検索ならば、単純なgrep検索方式でも問題が無いかもしれません。しかし大量の文章から指定した検索ワードに合致する文章を見つけるとなると、現在のコンピュータの性能を持ってしても、かなりの時間を必要とする事になります。
そこで「形態素解析」と言うものが必要となってきます。「形態素解析」とは、大まかに言えば、自然言語のテキストデータを文法や辞書を用い文書を単語単位に分割する事を言います。
この「形態素解析」を行った結果をデータベース化し、このデータベースを検索する事により、全文検索のスピードを上げる事が可能となります。SQLで言えば検索効率を上げるためにインデックステーブルを作る様なものと言えば理解し易いかと思います。
この様な形態素解析にて、日本語では日本語独特の多様性により相当な困難が伴います。そもそも日本語での形態素解析の始まりは、FEP(Front End Processer)の開発からだと言われています。つまりひらがなまたはローマ字で入力した文書を正確な漢字かな混じりに変換するのに必要だった訳です。ただし全文検索に必要な「形態素解析」では、逆に漢字仮名混じりの文章を解析する訳ですので、FEPとは逆の手法が必要であったと思われます。これ以上の詳細に興味を持った方は、ネット上の情報を「検索」してみてください。各種の検索エンジンでも「形態素解析」を使用してデータベースを構築しています。