Previous Next

概要

導入

Zend_Search_Lucene は、完全に PHP 5 で書かれている汎用的なテキスト検索エンジンです。 インデックスをファイルシステム上に保存するためデータベースサーバを必要とせず、 たいていの PHP ウェブサイト上で動作させることができます。 Zend_Search_Lucene は、以下の機能をサポートしています。

  • 重要度による検索 - 最もマッチした結果が最初に返されます

  • さまざまな強力な検索方式: フレーズ検索、boolean 検索、ワイルドカード検索、 あいまい検索、範囲指定検索などなど

  • 指定したフィールド (例: タイトル、作者、内容) による検索

Zend_Search_Lucene は Apache Lucene プロジェクトから派生したものです。 現在 (ZF 1.6 以降) サポートしている Lucene インデックスフォーマットバージョンは 1.4 - 2.3 です。 Lucene についての詳細は http://lucene.apache.org/java/docs/ を参照ください。

Note:

以前の Zend_Search_Lucene の実装は Lucene 1.4 (1.9) - 2.1 インデックスフォーマットに対応しています。

ZF 1.5 以降、2.1 より前のインデックスフォーマットで作成されたインデックスは Zend_Search_Lucene をアップグレードすると 自動的に Lucene 2.1 フォーマットにアップグレードされるようになっています。 いったんアップグレードされたインデックスは、 ZF 1.0.x に含まれる Zend_Search_Lucene の実装で読み込むことができません。

Document および Field オブジェクト

Zend_Search_Lucene は、ドキュメント単位でインデックスを作成します。 ドキュメントは名前つきのフィールドから構成され、 検索対象のコンテンツがフィールドの中に含まれます。

ドキュメントを表すのが Zend_Search_Lucene_Document オブジェクトです。このオブジェクトの中には、フィールドを表す Zend_Search_Lucene_Field オブジェクトが含まれます。

あらゆる種類の情報がインデックス化される可能性があることに注意しましょう。 アプリケーション固有の情報やメタデータをドキュメントのフィールドに格納し、 検索結果のドキュメントとして後で取得することができます。

インデクサを制御するのは、あなたが作成するアプリケーションの役割です。 ということは、あなたのアプリケーションからアクセス可能な、 あらゆる内容のデータがインデックス化される可能性があるということです。 例えばファイルシステム、データベース、HTML フォームなどが考えられます。

Zend_Search_Lucene_Field クラスには、 さまざまな性質のフィールドを作成するための静的メソッドが定義されています。

$doc = new Zend_Search_Lucene_Document();

// フィールドはトークン化されませんが、インデックス化されて保存されます。
// 保存されたフィールドは、インデックスから取得することができます。
$doc->addField(Zend_Search_Lucene_Field::Keyword('doctype',
                                                 'autogenerated'));

// フィールドはトークン化もインデックス化も行われませんが、インデックスに保存されます。
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
                                                   time()));

// バイナリ文字列フィールドはトークン化もインデックス化も行われません。
// しかしインデックスには保存されます。
$doc->addField(Zend_Search_Lucene_Field::Binary('icon',
                                                $iconData));

// フィールドがトークン化・インデックス化されてインデックスに保存されます。
$doc->addField(Zend_Search_Lucene_Field::Text('annotation',
                                              'Document annotation text'));

// フィールドはトークン化されてインデックス化されますが、インデックスには保存されません。
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
                                                  'My document content'));

これらの各メソッド (Zend_Search_Lucene_Field::Binary() メソッドを除く) は、オプションのパラメータ $encoding を持っています。 これで入力データのエンコーディングを指定します。

エンコーディングはドキュメントによって異なるでしょうし、 同一ドキュメント内でもフィールドによって異なることもあるでしょう。

$doc = new Zend_Search_Lucene_Document();
$doc->addField(Zend_Search_Lucene_Field::Text('title',
                                              $title,
                                              'iso-8859-1'));
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
                                                  $contents,
                                                  'utf-8'));

エンコーディングパラメータを省略した場合は、 現在のロケールが処理時に使用されます。たとえば次のようになります。

setlocale(LC_ALL, 'de_DE.iso-8859-1');
...
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents));

フィールドをインデックス化したり返したりする際には、 常に UTF-8 エンコーディングとなります。UTF-8 への変換は自動的に行われます。

テキスト解析器 (以下を参照ください) は、テキストをその他のエンコーディングに変換したりもします。 実際、デフォルトの解析器はテキストを 'ASCII//TRANSLIT' エンコーディングに変換します。 ここで注意が必要なのは、このような変換は現在のロケールに依存して行われるということです。

フィールドの名前は addField() メソッドで自由につけることができます。

Java Lucene は、検索の際にデフォルトで使用されるフィールド名として "contents" を使用します。 Zend_Search_Lucene は、デフォルトではすべてのフィールドを検索します。 しかし、この挙動を変更することもできます。詳細は "デフォルトの検索フィールド" の章を参照ください。

フィールド型について理解する

  • Keyword フィールドは、保存されインデックス化されます。 つまり、検索した際に元の内容がそのまま返されるということです。 トークン化は行われません (いくつかの単語に分割されることはありません)。 列挙方のデータベースフィールドは、通常は Zend_Search_Lucene の Keyword フィールドにうまく収まることでしょう。

  • UnIndexed フィールドは検索対象になりませんが、 検索結果としては返されます。このフィールドに設定する値としては、 データベースのタイムスタンプ、主キー、ファイルシステムのパス およびその他の外部識別子などがあります。

  • Binary フィールドは、トークン化もインデックス化も行われません。 しかし、検索結果として取得できるように保存されます。 画像アイコンのようなバイナリデータをバイナリ文字列として エンコードしたものなどに対して使用します。

  • Text フィールドは、保存されインデックス化され、 そしてトークン化されます。検索項目として使用し、 かつ検索結果としても取得したいような項目、 例えばタイトルなどを保存するのに適しています。

  • UnStored フィールドはトークン化されインデックス化されます。 しかしインデックスには保存されません。大量のテキストなどに適しています。 データを保存してしまうとディスク上のインデックスのサイズが大きくなってしまうので、 検索はしたいが結果としてそれを表示する必要がない場合などは、 このフィールドを使用しましょう。Zend_Search_Lucene インデックスを リレーショナルデータベースと組み合わせて使用する場合などには UnStored フィールドが実用的に使用できるでしょう。 大きなデータフィールドの内容の検索用に UnStored フィールドに保存し、 結果をデータベースから取得するために、もうひとつ別の ID フィールドを使用します。

    Zend_Search_Lucene_Field の型
    フィールド型 保存 インデックス化 トークン化 バイナリ
    Keyword Yes Yes No No
    UnIndexed Yes No No No
    Binary Yes No No Yes
    Text Yes Yes Yes No
    UnStored No Yes Yes No

HTML ドキュメント

Zend_Search_Lucene には HTML をパースする機能もあります。 次のようにして、HTML ファイルや文字列からドキュメントを直接作成することができます。

$doc = Zend_Search_Lucene_Document_Html::loadHTMLFile($filename);
$index->addDocument($doc);
...
$doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
$index->addDocument($doc);

Zend_Search_Lucene_Document_Html クラスは、 DOMDocument::loadHTML() および DOMDocument::loadHTMLFile() メソッドを用いてソース HTML をパースしています。つまり、対象となる HTML は整形式である必要はなく、 また XHTML である必要もありません。一方、ヘッダの "meta http-equiv" タグで、エンコーディングをきちんと設定しておく必要があります。

Zend_Search_Lucene_Document_Html クラスは、 ドキュメントのタイトル、本文そしてヘッダの meta タグの内容を認識します。

'title' フィールドには /html/head/title の値が入ります。 これはインデックスないにトークン化して保存され、検索の対象となります。

'body' フィールドには body の中身が入ります。 スクリプトやコメント、そしてタグの属性は含まれません。

Zend_Search_Lucene_Document_Html クラスの loadHTML() および loadHTMLFile() メソッドには、 オプションの二番目の引数もあります。これを true に設定すると、 body の中身もインデックスに格納され、インデックスから取得できるようになります。 body はトークン化とインデックス化だけが行われ、デフォルトでは保存されません。

ドキュメントヘッダの meta タグの内容をもとに、追加のフィールドを作成します。 フィールドの名前は 'name' 属性から取得します。そして 'content' 属性の内容がその値となります。これはトークン化、インデックス化した上で 保存されます。つまり、ドキュメントは meta タグの内容をもとにして (たとえばキーワードによって) 検索できるようになるわけです。

パースされたドキュメントに、ユーザが別のフィールドを拡張することができます。

$doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
                                                   time()));
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('updated',
                                                   time()));
$doc->addField(Zend_Search_Lucene_Field::Text('annotation',
                                              'Document annotation text'));
$index->addDocument($doc);

作成されたドキュメントにはリンクは含まれません。しかし、 Zend_Search_Lucene_Document_Html::getLinks() および Zend_Search_Lucene_Document_Html::getHeaderLinks() メソッドでリンクを取得することもできます。

$doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
$linksArray = $doc->getLinks();
$headerLinksArray = $doc->getHeaderLinks();

ZF 1.6 以降では、rel 属性が 'nofollow' に設定されているリンクを除外できるようになりました。 このオプションを有効にするには Zend_Search_Lucene_Document_Html::setExcludeNoFollowLinks($true) を使用します。

Zend_Search_Lucene_Document_Html::getExcludeNoFollowLinks() メソッドは、この "nofollow リンクを除外する" フラグの現在の状態を返します。

Word 2007 ドキュメント

Zend_Search_Lucene には Word 2007 のパース機能があります。Word 2007 ファイルから直接ドキュメントを作成することができます。

$doc = Zend_Search_Lucene_Document_Docx::loadDocxFile($filename);
$index->addDocument($doc);

Zend_Search_Lucene_Document_Docx クラスは、ZipArchive クラスと simplexml のメソッドでドキュメントをパースします。ZipArchive クラス (php_zip モジュール) が使用できない場合は、Zend_Search_Lucene_Document_Docx を Zend Framework で使用することはできません。

Zend_Search_Lucene_Document_Docx クラスは、ドキュメントのメタデータとテキストを扱います。メタデータに含まれる内容は、ドキュメントの内容によって filename, title, subject, creator, keywords, description, lastModifiedBy, revision, modified, created などがあります。

'filename' フィールドは、実際の Word 2007 ファイルのファイル名です。

'title' フィールドは、実際のドキュメントのタイトルです。

'subject' フィールドは、実際のドキュメントの表題です。

'creator' フィールドは、実際のドキュメントの作成者です。

'keywords' フィールドは、実際のドキュメントのキーワードです。

'description' フィールドは、実際のドキュメントの説明です。

'lastModifiedBy' フィールドは、実際のドキュメントを最後に編集したユーザ名です。

'revision' フィールドは、実際のドキュメントのリビジョン番号です。

'modified' フィールドは、実際のドキュメントの最終更新日時です。

'created' フィールドは、実際のドキュメントの作成日時です。

'body' フィールドは、Word 2007 ドキュメントの実際の本文です。ここに含まれるのは通常のテキストのみで、コメントやリビジョンは含まれません。

Zend_Search_Lucene_Document_Docx クラスの loadDocxFile() メソッドにもオプションの 2 番目の引数があります。これを true に設定すると、 本文もインデックスに格納されてインデックスから取得できるようになります。 デフォルトでは、本文のトークン化とインデックスの作成は行いますがインデックスには格納されません。

パースしたドキュメントに、プログラマが任意のフィールドを追加することができます。

$doc = Zend_Search_Lucene_Document_Docx::loadDocxFile($filename);
$doc->addField(Zend_Search_Lucene_Field::UnIndexed(
    'indexTime',
    time())
);
$doc->addField(Zend_Search_Lucene_Field::Text(
    'annotation',
    'Document annotation text')
);
$index->addDocument($doc);

Powerpoint 2007 ドキュメント

Zend_Search_Lucene には Powerpoint 2007 のパース機能があります。Powerpoint 2007 ファイルから直接ドキュメントを作成することができます。

$doc = Zend_Search_Lucene_Document_Pptx::loadPptxFile($filename);
$index->addDocument($doc);

Zend_Search_Lucene_Document_Pptx クラスは、ZipArchive クラスと simplexml のメソッドでドキュメントをパースします。ZipArchive クラス (php_zip モジュール) が使用できない場合は、Zend_Search_Lucene_Document_Pptx を Zend Framework で使用することはできません。

Zend_Search_Lucene_Document_Pptx クラスは、ドキュメントのメタデータとテキストを扱います。メタデータに含まれる内容は、ドキュメントの内容によって filename, title, subject, creator, keywords, description, lastModifiedBy, revision, modified, created などがあります。

'filename' フィールドは、実際の Powerpoint 2007 ファイルのファイル名です。

'title' フィールドは、実際のドキュメントのタイトルです。

'subject' フィールドは、実際のドキュメントの表題です。

'creator' フィールドは、実際のドキュメントの作成者です。

'keywords' フィールドは、実際のドキュメントのキーワードです。

'description' フィールドは、実際のドキュメントの説明です。

'lastModifiedBy' フィールドは、実際のドキュメントを最後に編集したユーザ名です。

'revision' フィールドは、実際のドキュメントのリビジョン番号です。

'modified' フィールドは、実際のドキュメントの最終更新日時です。

'created' フィールドは、実際のドキュメントの作成日時です。

'body' フィールドは、Powerpoint 2007 ドキュメントのすべてのスライドとノートの実際の本文です。

Zend_Search_Lucene_Document_Pptx クラスの loadPptxFile() メソッドにもオプションの 2 番目の引数があります。これを true に設定すると、 本文もインデックスに格納されてインデックスから取得できるようになります。 デフォルトでは、本文のトークン化とインデックスの作成は行いますがインデックスには格納されません。

パースしたドキュメントに、プログラマが任意のフィールドを追加することができます。

$doc = Zend_Search_Lucene_Document_Pptx::loadPptxFile($filename);
$doc->addField(Zend_Search_Lucene_Field::UnIndexed(
    'indexTime',
    time()));
$doc->addField(Zend_Search_Lucene_Field::Text(
    'annotation',
    'Document annotation text'));
$index->addDocument($doc);

Excel 2007 ドキュメント

Zend_Search_Lucene には Excel 2007 のパース機能があります。Excel 2007 ファイルから直接ドキュメントを作成することができます。

$doc = Zend_Search_Lucene_Document_Xlsx::loadXlsxFile($filename);
$index->addDocument($doc);

Zend_Search_Lucene_Document_Xlsx クラスは、ZipArchive クラスと simplexml のメソッドでドキュメントをパースします。ZipArchive クラス (php_zip モジュール) が使用できない場合は、Zend_Search_Lucene_Document_Xlsx を Zend Framework で使用することはできません。

Zend_Search_Lucene_Document_Xlsx クラスは、ドキュメントのメタデータとテキストを扱います。メタデータに含まれる内容は、ドキュメントの内容によって filename, title, subject, creator, keywords, description, lastModifiedBy, revision, modified, created などがあります。

'filename' フィールドは、実際の Excel 2007 ファイルのファイル名です。

'title' フィールドは、実際のドキュメントのタイトルです。

'subject' フィールドは、実際のドキュメントの表題です。

'creator' フィールドは、実際のドキュメントの作成者です。

'keywords' フィールドは、実際のドキュメントのキーワードです。

'description' フィールドは、実際のドキュメントの説明です。

'lastModifiedBy' フィールドは、実際のドキュメントを最後に編集したユーザ名です。

'revision' フィールドは、実際のドキュメントのリビジョン番号です。

'modified' フィールドは、実際のドキュメントの最終更新日時です。

'created' フィールドは、実際のドキュメントの作成日時です。

'body' フィールドは、Excel 2007 ドキュメントのすべてのワークシートのすべてのセルの実際の内容です。

Zend_Search_Lucene_Document_Xlsx クラスの loadXlsxFile() メソッドにもオプションの 2 番目の引数があります。これを true に設定すると、 本文もインデックスに格納されてインデックスから取得できるようになります。 デフォルトでは、本文のトークン化とインデックスの作成は行いますがインデックスには格納されません。

パースしたドキュメントに、プログラマが任意のフィールドを追加することができます。

$doc = Zend_Search_Lucene_Document_Xlsx::loadXlsxFile($filename);
$doc->addField(Zend_Search_Lucene_Field::UnIndexed(
    'indexTime',
    time()));
$doc->addField(Zend_Search_Lucene_Field::Text(
    'annotation',
    'Document annotation text'));
$index->addDocument($doc);

Previous Next
Introduction to Zend Framework
概要
インストール
Zend_Acl
導入
アクセス制御の洗練
高度な使用法
Zend_Amf
導入
Zend_Amf_Server
Zend_Auth
導入
データベースのテーブルでの認証
ダイジェスト認証
HTTP 認証アダプタ
LDAP 認証
Open ID 認証
Zend_Cache
導入
キャッシュの仕組み
Zend_Cache のフロントエンド
Zend_Cache のバックエンド
Zend_Captcha
導入
Captcha の方法
Captcha アダプタ
Zend_Config
導入
動作原理
Zend_Config_Ini
Zend_Config_Xml
Zend_Config_Writer
Zend_Config_Writer
Zend_Console_Getopt
Getopt について
Getopt の規則の宣言
オプションおよび引数の取得
Zend_Console_Getopt の設定
Zend_Controller
Zend_Controller クイックスタート
Zend_Controller の基本
フロントコントローラ
リクエストオブジェクト
標準のルータ
ディスパッチャ
アクションコントローラ
アクションヘルパー
レスポンスオブジェクト
プラグイン
モジュラーディレクトリ構造の規約の使用
MVC での例外
以前のバージョンからの移行
Zend_Currency
Zend_Currency について
通貨の操作方法
以前のバージョンからの移行
Zend_Date
導入
動作原理
基本メソッド
Zend_Date API の概要
日付の作成
日付関数全般用の定数
動作例
Zend_Db
Zend_Db_Adapter
Zend_Db_Statement
Zend_Db_Profiler
Zend_Db_Select
Zend_Db_Table
Zend_Db_Table_Row
Zend_Db_Table_Rowset
導入
Zend_Debug
変数の出力
Zend_Dojo
導入
Zend_Dojo_Data: dojo.data エンベロープ
Dojo ビューヘルパー
Dojo Form Elements and Decorators
Zend_Dom
導入
Zend_Dom_Query
Zend_Exception
例外の使用法
Zend_Feed
導入
フィードの読み込み
ウェブページからのフィードの取得
RSS フィードの使用
Atom フィードの使用
単一の Atom エントリの処理
フィードおよびエントリの構造の変更
独自のフィードクラスおよびエントリクラス
Zend_File
Zend_File_Transfer
Zend_File_Transfer 用のバリデータ
Filters for Zend_File_Transfer
以前のバージョンからの移行
Zend_Filter
導入
標準のフィルタクラス群
フィルタチェイン
フィルタの書き方
Zend_Filter_Input
Zend_Filter_Inflector
Zend_Form
Zend_Form
Zend_Form クイックスタート
Zend_Form_Element を用いたフォーム要素の作成
Zend_Form によるフォームの作成
Zend_Form_Decorator による独自のフォームマークアップの作成
Zend Framework に同梱されている標準のフォーム要素
Zend Framework に同梱されている標準のデコレータ
Zend_Form の国際化
Zend_Form の高度な使用法
Zend_Gdata
Gdata について
AuthSub による認証
Using the Book Search Data API
ClientLogin による認証
Google Calendar の使用法
Google Documents List Data API の使用法
Using Google Health
Google Spreadsheets の使用法
Google Apps Provisioning の使用法
Google Base の使用法
Picasa Web Albums の使用法
YouTube Data API の使用法
Gdata の例外処理
Zend_Http
Zend_Http_Client - 導入
Zend_Http_Client - 高度な使用法
Zend_Http_Client - 接続アダプタ
Zend_Http_Cookie および Zend_Http_CookieJar
Zend_Http_Response
Zend_InfoCard
導入
Zend_Json
導入
基本的な使用法
JSON オブジェクト
XML から JSON への変換
Zend_Json_Server - JSON-RPC server
Zend_Layout
導入
Zend_Layout クイックスタート
Zend_Layout の設定オプション
Zend_Layout の高度な使用法
Zend_Ldap
導入
Zend_Loader
ファイルやクラスの動的な読み込み
プラグインのロード
Zend_Locale
導入
Zend_Locale の使用法
正規化および地域化
日付および時刻の扱い
サポートするロケール
以前のバージョンからの移行
Zend_Log
概要
ライター
フォーマッタ
フィルタ
Zend_Mail
導入
SMTP 経由での送信
SMTP 接続による複数のメールの送信
異なる転送手段の使用
HTML メール
ファイルの添付
受信者の追加
MIME バウンダリの制御
追加のヘッダ
文字セット
エンコーディング
SMTP 認証
セキュアな SMTP トランスポート
メールメッセージの読み込み
Zend_Measure
導入
計測値の作成
計測値の出力
計測値の操作
計測値の型
Zend_Memory
概要
メモリマネージャ
メモリオブジェクト
Zend_Mime
Zend_Mime
Zend_Mime_Message
Zend_Mime_Part
Zend_OpenId
導入
Zend_OpenId_Consumer の基本
Zend_OpenId_Provider
Zend_Paginator
導入
使用法
設定
高度な使用法
Zend_Pdf
導入
PDF ドキュメントの作成および読み込み
PDF ドキュメントへの変更内容の保存
ドキュメントのページ
描画
ドキュメントの情報およびメタデータ
Zend_Pdf モジュールの使用例
Zend_ProgressBar
Zend_ProgressBar
Zend_Registry
レジストリの使用法
Zend_Rest
導入
Zend_Rest_Client
Zend_Rest_Server
Zend_Search_Lucene
概要
インデックスの構築
インデックスの検索
クエリ言語
クエリ作成用の API
文字セット
拡張性
Java Lucene との相互運用
応用
ベストプラクティス
Zend_Server
導入
Zend_Server_Reflection
Zend_Service
導入
Zend_Service_Akismet
Zend_Service_Amazon
Zend_Service_Audioscrobbler
Zend_Service_Delicious
Zend_Service_Flickr
Zend_Service_Nirvanix
Zend_Service_ReCaptcha
Zend_Service_Simpy
導入
Zend_Service_StrikeIron
Zend_Service_StrikeIron: バンドルされているサービス
Zend_Service_StrikeIron: 応用編
Zend_Service_Technorati
Zend_Service_Twitter
Zend_Service_Yahoo
Zend_Session
導入
基本的な使用法
高度な使用法
グローバルセッションの管理
Zend_Session_SaveHandler_DbTable
Zend_Soap
Zend_Soap_Server
Zend_Soap_Client
WSDL Accessor
AutoDiscovery
Zend_Test
導入
Zend_Test_PHPUnit
Zend_Text
Zend_Text_Figlet
Zend_Text_Table
Zend_TimeSync
導入
Zend_TimeSync の動作
Zend_Translate
導入
Zend_Translate のアダプタ
翻訳アダプタの使用法
Migrating from previous versions
Zend_Uri
Zend_Uri
Zend_Validate
導入
標準のバリデーションクラス群
バリデータチェイン
バリデータの書き方
Zend_Version
Zend Framework のバージョンの取得
Zend_View
導入
コントローラスクリプト
ビュースクリプト
ビューヘルパー
Zend_View_Abstract
Zend_Wildfire
Zend_Wildfire
Zend_XmlRpc
導入
Zend_XmlRpc_Client
Zend_XmlRpc_Server
Zend Framework のシステム要件
PHP のバージョン
PHP の拡張モジュール
Zend Framework のコンポーネント
Zend Framework の依存性
Zend Framework PHP 標準コーディング規約
概要
PHP ファイルの書式
命名規約
コーディングスタイル
Zend Framework Performance Guide
Introduction
Class Loading
Internationalization (i18n) and Localization (l10n)
View Rendering
著作権に関する情報