第19章 Zend_Search

目次

19.1. 概要
19.1.1. 導入
19.1.2. Document および Field オブジェクト
19.1.3. フィールド型について理解する
19.2. インデックスの構築
19.2.1. 新しいインデックスの作成
19.2.2. インデックスの更新
19.2.3. ドキュメントの更新
19.2.4. インデックスの最適化
19.2.5. 制限
19.3. インデックスの検索
19.3.1. クエリの作成
19.3.2. 検索結果の並べ替え
19.3.3. 検索結果
19.3.4. 結果の重み付け
19.4. クエリ言語
19.4.1. 用語
19.4.2. フィールド
19.4.3. 単語の修正子
19.4.4. 近接検索
19.4.5. 単語の強調
19.4.6. 論理演算子
19.4.7. グループ化
19.4.8. フィールドのグループ化
19.4.9. 特殊文字のエスケープ
19.5. クエリ作成用の API
19.5.1. クエリパーサの例外
19.5.2. 単一の単語のクエリ
19.5.3. 複数の単語のクエリ
19.5.4. フレーズクエリ
19.6. 文字セット
19.6.1. UTF-8 およびシングルバイト文字セットのサポート
19.7. 拡張性
19.7.1. テキスト解析
19.7.2. トークンのフィルタリング
19.7.3. 重み付けのアルゴリズム
19.7.4. 保存先
19.8. Java Lucene との相互運用
19.8.1. ファイルフォーマット
19.8.2. インデックスディレクトリ
19.8.3. Java のソースコード
19.8.4. LuceneIndexCreation.jar の使用法

19.1. 概要

19.1.1. 導入

Zend_Search_Lucene は、完全に PHP 5 で書かれている汎用的なテキスト検索エンジンです。 インデックスをファイルシステム上に保存するためデータベースサーバを必要とせず、 たいていの PHP ウェブサイト上で動作させることができます。 Zend_Search_Lucene は、以下の機能をサポートしています。

  • 重要度による検索 - 最もマッチした結果が最初に返されます

  • さまざまな強力な検索方式: フレーズ検索、ワイルドカード検索、 あいまい検索、範囲指定検索などなど [7]

  • 指定したフィールド (例: タイトル、作者、内容) による検索

Zend_Search_Lucene は Apache Lucene プロジェクトから派生したものです。 Lucene についての詳細は http://lucene.apache.org/java/docs/ を参照ください。

19.1.2. Document および Field オブジェクト

Zend_Search_Lucene は、ドキュメント単位でインデックスを作成します。 ドキュメントは名前つきのフィールドから構成され、 検索対象のコンテンツがフィールドの中に含まれます。

ドキュメントを表すのが Zend_Search_Lucene_Document オブジェクトです。このオブジェクトの中には、フィールドを表す Zend_Search_Lucene_Field オブジェクトが含まれます。

あらゆる種類の情報がインデックス化される可能性があることに注意しましょう。 アプリケーション固有の情報やメタデータをドキュメントのフィールドに格納し、 検索結果のドキュメントとして後で取得することができます。

インデクサを制御するのは、あなたが作成するアプリケーションの役割です。 ということは、あなたのアプリケーションからアクセス可能な、 あらゆる内容のデータがインデックス化される可能性があるということです。 例えばファイルシステム、データベース、HTML フォームなどが考えられます。

Zend_Search_Lucene_Field クラスには、 さまざまな性質のフィールドを作成するための静的メソッドが定義されています。

<?php
$doc = new Zend_Search_Lucene_Document();

// フィールドはトークン化されませんが、インデックス化されて保存されます。
// 保存されたフィールドは、インデックスから取得することができます。
$doc->addField(Zend_Search_Lucene_Field::Keyword('doctype', 
                                                 'autogenerated'));

// フィールドはトークン化もインデックス化も行われませんが、インデックスに保存されます。
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('created', 
                                                   time()));

// バイナリ文字列フィールドはトークン化もインデックス化も行われません。
// しかしインデックスには保存されます。
$doc->addField(Zend_Search_Lucene_Field::Binary('icon', 
                                                $iconData));

// フィールドがトークン化・インデックス化されてインデックスに保存されます。
$doc->addField(Zend_Search_Lucene_Field::Text('annotation', 
                                              'Document annotation text'));

// フィールドはトークン化されてインデックス化されますが、インデックスには保存されません。
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', 
                                                  'My document content'));

?>

フィールドの名前は自由につけることができます。

Java Lucene は、検索の際にデフォルトで使用されるフィールド名として "contents" を使用します。 Zend_Search_Lucene は、デフォルトではすべてのフィールドを検索します。 しかし、この挙動を変更することもできます。詳細は "デフォルトの検索フィールド" の章を参照ください。

19.1.3. フィールド型について理解する

  • Keyword フィールドは、保存されインデックス化されます。 つまり、検索した際に元の内容がそのまま返されるということです。 トークン化は行われません (いくつかの単語に分割されることはありません)。 列挙方のデータベースフィールドは、通常は Zend_Search_Lucene の Keyword フィールドにうまく収まることでしょう。

  • UnIndexed フィールドは検索対象になりませんが、 検索結果としては返されます。このフィールドに設定する値としては、 データベースのタイムスタンプ、主キー、ファイルシステムのパス およびその他の外部識別子などがあります。

  • Binary フィールドは、トークン化もインデックス化も行われません。 しかし、検索結果として取得できるように保存されます。 画像アイコンのようなバイナリデータをバイナリ文字列として エンコードしたものなどに対して使用します。

  • Text フィールドは、保存されインデックス化され、 そしてトークン化されます。検索項目として使用し、 かつ検索結果としても取得したいような項目、 例えばタイトルなどを保存するのに適しています。

  • UnStored フィールドはトークン化されインデックス化されます。 しかしインデックスには保存されません。大量のテキストなどに適しています。 データを保存してしまうとディスク上のインデックスのサイズが大きくなってしまうので、 検索はしたいが結果としてそれを表示する必要がない場合などは、 このフィールドを使用しましょう。Zend_Search_Lucene インデックスを リレーショナルデータベースと組み合わせて使用する場合などには UnStored フィールドが実用的に使用できるでしょう。 大きなデータフィールドの内容の検索用に UnStored フィールドに保存し、 結果をデータベースから取得するために、もうひとつ別の ID フィールドを使用します。

    表 19.1. Zend_Search_Lucene_Field の型

    フィールド型 保存 インデックス化 トークン化 バイナリ
    Keyword Yes Yes No No
    UnIndexed Yes No No No
    Binary Yes No No Yes
    Text Yes Yes Yes No
    UnStored No Yes Yes No


[7] 現在サポートしているのは、単語検索および複数単語検索、そしてフレーズ検索、論理式およびサブクエリです。