SYSTEM DEVELOPMENT

SYSTEM DEVELOPMENT

検索システムのあれやこれ……

現在関わらせてもらっているプロジェクトでよく目にする言葉。。。
「クローラ」
どんな意味なのか、どんなものなのか・・・・wiki先生で軽く調べてみました。
以下、wiki引用

クローラ(Crawler)とは、ウェブ上の文書や画像などを周期的に取得し、自動的にデータベース化するプログラムである。「ボット(Bot)」、「スパイダー」、「ロボット」などとも呼ばれる。
主に検索エンジンのデータベース、インデックス作成に用いられているほか、統計調査などの目的にも利用される。近年では電子メールアドレス収集業者などもクローラを利用して、スパムの送信効率を上げている。
一般にクローラは、既知のHTML文書の新しいコピーを要求し、文書中に含まれるリンクをたどり別の文書を収集するという動作を繰り返す。新しい文書を見つけた場合はデータベースに登録する。また、既知のファイルが存在しないことを検出した場合はデータベースから削除する。

大雑把に言うとデータを自動収集それらを元にDB登録、インデックスの作成を行い
検索する際にそれらを利用し検索するってことなのか。(間違っているかもだけど)
やっぱり仕組みがわからないとうまく説明できないですね。
勉強頑張ります!
 
 

menu