Previous Next

インデックスの構築

新しいインデックスの作成

インデックスの作成機能および更新機能は、 Zend_Search_Lucene モジュールと Java Lucene で実装されています。 これらのいずれかの機能を使用して作成したインデックスについて、 Zend_Search_Lucene により検索できます。

以下の PHP コードでは、Zend_Search_Lucene のインデックス作成 API を用いてファイルをインデックス化する例を示します。

// インデックスを作成します
$index = Zend_Search_Lucene::create('/data/my-index');

$doc = new Zend_Search_Lucene_Document();

// ドキュメントの URL を、検索結果の ID として保存します。
$doc->addField(Zend_Search_Lucene_Field::Text('url', $docUrl));

// ドキュメントの内容をインデックス化します。
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $docContent));

// ドキュメントをインデックスに追加します。
$index->addDocument($doc);

新しく追加されたドキュメントは、 すぐにインデックスから取得できるようになります。

インデックスの更新

既存のインデックスを更新する際にも同じ手順を使用します。ただひとつの違いは、 create() メソッドではなく open() メソッドをコールするということです。

// 既存のインデックスをオープンします。
$index = Zend_Search_Lucene::open('/data/my-index');

$doc = new Zend_Search_Lucene_Document();
// ドキュメントの URL を、検索結果の ID として保存します。
$doc->addField(Zend_Search_Lucene_Field::Text('url', $docUrl));
// ドキュメントの内容をインデックス化します。
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
                                                  $docContent));

// ドキュメントをインデックスに追加します。
$index->addDocument($doc);

ドキュメントの更新

Lucene インデックスファイルは、ドキュメントの更新をサポートしていません。 更新するためには、いったん削除した上で改めて追加する必要があります。

そのためには、インデックス内部のドキュメント ID を使用して Zend_Search_Lucene::delete() メソッドをコールします。 この ID は、クエリでヒットした内容から 'id' プロパティで取得できます。

$removePath = ...;
$hits = $index->find('path:' . $removePath);
foreach ($hits as $hit) {
    $index->delete($hit->id);
}

インデックスの大きさの取得

Zend_Search_Lucene のインデックスの大きさを知るには、二通りの方法があります。

Zend_Search_Lucene::maxDoc() は、 最大のドキュメント番号にひとつ足した値を返します。 これは、削除されたドキュメントを含む、インデックス内のドキュメントの総数を表します。 そこで、このメソッドのシノニムとして Zend_Search_Lucene::count() を用意しました。

Zend_Search_Lucene::numDocs() は、削除されていないドキュメントの総数を返します。

$indexSize = $index->count();
$documents = $index->numDocs();

Zend_Search_Lucene::isDeleted($id) メソッドで、そのドキュメントが削除されているかどうかを調べます。

for ($count = 0; $count < $index->maxDoc(); $count++) {
    if ($index->isDeleted($count)) {
        echo "ドキュメント #$id は削除されました。\n";
    }
}

インデックスの最適化を行うと、削除されたドキュメントを取り除き、 ドキュメントの ID を前のほうに詰め込みます。 つまり、内部でのドキュメント ID は変わる可能性があります。

インデックスの最適化

Lucene のインデックスは、セグメントから構成されます。 各セグメントはデータの一部分を表し、それぞれ完全に独立しています。

Lucene インデックスセグメントのファイルは、その性質上更新することはできません。 セグメントを更新するには、セグメント全体を再構成する必要があります (Lucene インデックスファイルのフォーマットについての詳細は、 » http://lucene.apache.org/java/2_3_0/fileformats.html を参照ください) [1]。 このことより、新しいドキュメントをインデックスに追加する際には、 新しいセグメントを作成することになります。

セグメントの数が増えるとインデックスの効率が下がります。 しかし、インデックスの最適化によってこれを修復できます。 最適化により、複数のセグメントに分かれているデータがひとつにまとめられます。 この処理も、セグメントを更新することはありません。まず大きなセグメントを新しく作成し、 これまでいくつものセグメントに分かれていたデータをひとまとめにしてそこに格納し、 その後でセグメント一覧 ('segments' ファイル) を更新します。

インデックス全体の最適化を行うには、 Zend_Search_Lucene::optimize() をコールします。これは、すべてのインデックスセグメントを新しいひとつのセグメントにまとめます。

// 既存のインデックスをオープンします
$index = Zend_Search_Lucene::open('/data/my-index');

// インデックスを最適化します
$index->optimize();

自動的なインデックス最適化により、インデックスの一貫性を保ちます。

自動的な最適化は、いくつかのインデックスオプションにもとづいて段階的に進められます。 まず非常に小さなセグメントが少し大きめのセグメントに統合され、 さらにそれがもう少し大きな別のセグメントに統合され、... といった具合です。

自動最適化オプション MaxBufferedDocs

MaxBufferedDocs は、メモリ内に溜め込まれたドキュメントを 新しいセグメントに書き出す際の最小ドキュメント数です。

MaxBufferedDocs の値の取得や設定は、$index->getMaxBufferedDocs() あるいは $index->setMaxBufferedDocs($maxBufferedDocs) のコールによって行います。

デフォルト値は 10 です。

自動最適化オプション MaxMergeDocs

MaxMergeDocs は、addDocument() によってまとめられる最大のドキュメント数です。小さな値 (例えば 10.000 未満) は、対話的にインデックスを作成していく際に有効です。 これにより、インデックス化の際の処理の中断時間を数秒に抑えられます。 大きな値は、バッチ処理の際に有効です。これにより、検索をより高速に行えるようになります。

MaxMergeDocs の値の取得や設定は、$index->getMaxMergeDocs() あるいは $index->setMaxMergeDocs($maxMergeDocs) のコールによって行います。

デフォルト値は PHP_INT_MAX です。

自動最適化オプション MergeFactor

MergeFactor は、addDocument() でセグメントをまとめる頻度を指定します。 小さな値を指定すると、インデックス作成の際に使用する RAM の量を抑えられます。 また最適化されていないインデックスへの検索が高速になります。しかし、 インデックス作成の速度は遅くなります。大きな値を指定すると、インデックス作成の際の RAM の使用量が多くなります。また最適化されていないインデックスへの検索速度が落ちます。 しかしインデックスの作成は高速に行えます。大きな値 (> 10) はバッチ的なインデックス作成の際に有効で、小さな値 (< 10) は対話的なインデックス保守の際に有効です。

MergeFactor は、自動最適化が行われる平均セグメント数にほぼ等しくなります。 あまり大きな値を指定すると、新しいセグメントにまとめる前に セグメント数が多くなってしまいます。これは "failed to open stream: Too many open files" というエラーの原因となります。制限は、システムに依存します。

MergeFactor の値の取得や設定は、$index->getMergeFactor() あるいは $index->setMergeFactor($mergeFactor) のコールによって行います。

デフォルト値は 10 です。

Lucene Java および Luke (Lucene Index Toolbox - » http://www.getopt.org/luke/) を使用してインデックスを最適化することもできます。 Luke の最新リリース (v0.8) は Lucene v2.3 をベースにしており、 現在の Zend_Search_Lucene コンポーネントの実装 (Zend Framework 1.6) と互換性があります。 古いのバージョンの Zend_Search_Lucene の実装を使う場合は、 それと互換性のある別のバージョンの Java Lucene ツールを使う必要があります。

  • Zend Framework 1.5 - Java Lucene 2.1 (Luke tool v0.7.1 - http://www.getopt.org/luke/luke-0.7.1/)

  • Zend Framework 1.0 - Java Lucene 1.4 - 2.1 (Luke tool v0.6 - http://www.getopt.org/luke/luke-0.6/)

パーミッション

インデックスファイルは、デフォルトでは全員が読み書き可能となっています。

この設定を上書きするには Zend_Search_Lucene_Storage_Directory_Filesystem::setDefaultFilePermissions() メソッドを使用します。

// 現在のデフォルトのファイルパーミッションを取得します
$currentPermissions =
    Zend_Search_Lucene_Storage_Directory_Filesystem::getDefaultFilePermissions();

// 現在のユーザとグループに対してのみ読み書きアクセス権限を付与します
Zend_Search_Lucene_Storage_Directory_Filesystem::setDefaultFilePermissions(0660);

制限事項

インデックスの大きさ

インデックスの大きさは、 32 ビットプラットフォームでは最大 2GB までとなります。

64 ビットプラットフォームを使用すれば、 もっと大きなインデックスを扱えます。

サポートするファイルシステム

Zend_Search_Lucene は、 検索処理やインデックス更新、インデックスの最適化を処理する際に flock() を使用しています。

PHP の » マニュアル によると、 " flock() は NFS 及び他の多くのネットワークファイルシステムでは動作しません" とのことです。

ネットワークファイルシステムは、Zend_Search_Lucene では使用しないでください。

[1]現在サポートしている Lucene インデックスファイルフォーマットのバージョンは v2.3 (Zend Framework 1.6 以降) です
Previous Next
Zend Framework の紹介
概要
インストール
Zend Framework を学ぶ(主に英語)
クイックスタート(ごく一部のみ日本語)
Zend Framework & MVC Introduction
プロジェクトを作成
Create A Layout
モデルとデータベーステーブルの作成
Create A Form
おめでとう!
オートローディング(英語)
Introduction
Goals and Design
Basic Autoloader Usage
Resource Autoloading
Conclusion
プラグイン(英語)
Introduction
Using Plugins
Conclusion
Zend_Layout 入門(英語)
Introduction
Using Zend_Layout
Zend_Layout: Conclusions
Zend_View プレイスフォルダ入門(英語)
Introduction
Basic Placeholder Usage
Standard Placeholders
View Placeholders: Conclusion
Zend Form デコレータを理解して使う(ごく一部のみ日本語)
Introduction
Decorator Basics
Layering Decorators
Rendering Individual Decorators
Creating and Rendering Composite Elements
結論
Zend_Session, Zend_Auth, Zend_Acl 入門(英語)
Building Multi-User Applications With Zend Framework
Managing User Sessions In ZF
Authenticating Users in Zend Framework
Building an Authorization System in Zend Framework
Zend_Search_Lucene 入門(一部日本語)
Zend_Search_Lucene Introduction
Lucene Index Structure
インデックスのオープンと生成
索引付け
検索
サポートされるクエリー
検索結果のページ化
Zend_Paginator 入門(英語)
Introduction
Simple Examples
Pagination Control and ScrollingStyles
Putting it all Together
Zend Framework リファレンス
Zend_Acl
導入
アクセス制御の洗練
高度な使用法
Zend_Amf
導入
Zend_Amf_Server(日本語)
Zend_Application
導入
Zend_Application クイックスタート
Theory of Operation
コア機能
利用できるリソースプラグイン
Zend_Auth
導入
データベースのテーブルでの認証
ダイジェスト認証
HTTP 認証アダプタ
LDAP 認証
Open ID 認証
Zend_Barcode
導入
Barcode creation using Zend_Barcode class
Zend_Barcode Objects
Zend_Barcode Renderers
Zend_Cache
導入
キャッシュの仕組み
Zend_Cache のフロントエンド
Zend_Cache のバックエンド
The Cache Manager
Zend_Captcha
導入
Captcha の方法
CAPTCHA アダプタ
SimpleCloud API: Zend_Cloud
Document Service Introduction
Queue Service Introduction
StorageService Introduction
Zend_CodeGenerator
導入
Zend_CodeGeneratorサンプル
Zend_CodeGenerator リファレンス
Zend_Config
導入
動作原理
Zend_Config_Ini(日本語)
Zend_Config_Json
Zend_Config_Xml(日本語)
Zend_Config_Yaml
Zend_Config_Writer
Zend_Config_Writer(日本語)
Zend_Console_Getopt
導入
Getopt の規則の宣言
オプションおよび引数の取得
Zend_Console_Getopt の設定
Zend_Controller
Zend_Controller クイックスタート
Zend_Controller の基本
フロントコントローラ
リクエストオブジェクト
標準のルータ
ディスパッチャ
アクションコントローラ
アクションヘルパー
レスポンスオブジェクト
プラグイン
モジュラーディレクトリ構造の規約の使用
MVC での例外
Zend_Currency
Zend_Currency について
Using Zend_Currency
Options for currencies
What makes a currency?
Where is the currency?
How does the currency look like?
How much is my currency?
Calculating with currencies
Exchanging currencies
Additional informations on Zend_Currency
Zend_Date
導入
動作原理
基本メソッド
Zend_Date API の概要
日付の作成
日付関数全般用の定数
動作例
Zend_Db
Zend_Db_Adapter(日本語)
Zend_Db_Statement(日本語)
Zend_Db_Profiler(日本語)
Zend_Db_Select(日本語)
Zend_Db_Table(日本語)
Zend_Db_Table_Row(日本語)
Zend_Db_Table_Rowset(日本語)
導入
Zend_Db_Table_Definition(日本語)
Zend_Debug
変数の出力
Zend_Dojo
導入
Zend_Dojo_Data: dojo.data エンベロープ
Dojo ビューヘルパー
Dojoフォーム要素とデコレーター
Zend_Dojo build layer support
Zend_Dom
導入
Zend_Dom_Query(日本語)
Zend_Exception
例外の使用法
基本的な使用法
Previous Exceptions (前の例外)
Zend_Feed
導入
フィードの読み込み
ウェブページからのフィードの取得
RSS フィードの使用
Atom フィードの使用
単一の Atom エントリの処理
フィードおよびエントリの構造の変更
独自のフィードクラスおよびエントリクラス
Zend_Feed_Reader
Zend_Feed_Writer
Zend_Feed_Pubsubhubbub
Zend_File
Zend_File_Transfer(日本語)
Zend_File_Transfer 用のバリデータ
Filters for Zend_File_Transfer
Zend_Filter
導入
標準のフィルタクラス群
フィルタチェイン
フィルタの書き方
Zend_Filter_Input(日本語)
Zend_Filter_Inflector(日本語)
Zend_Form
Zend_Form(日本語)
Zend_Form クイックスタート
Zend_Form_Element を用いたフォーム要素の作成
Zend_Form によるフォームの作成
Zend_Form_Decorator による独自のフォームマークアップの作成
Zend Framework に同梱されている標準のフォーム要素
Zend Framework に同梱されている標準のデコレータ
Zend_Form の国際化
Zend_Form の高度な使用法
Zend_Gdata
導入
AuthSub による認証
Using the Book Search Data API
ClientLogin による認証
Google Calendar の使用法
Google Documents List Data API の使用法
Using Google Health
Google Spreadsheets の使用法
Google Apps Provisioning の使用法
Google Base の使用法
Picasa Web Albums の使用法
YouTube Data API の使用法
Gdata の例外処理
Zend_Http
導入
Zend_Http_Client - 高度な使用法
Zend_Http_Client - 接続アダプタ
Zend_Http_Cookie および Zend_Http_CookieJar
Zend_Http_Response(日本語)
Zend_Http_UserAgent
The UserAgent Device Interface
The UserAgent Features Adapter
The WURFL UserAgent Features Adapter
The DeviceAtlas UserAgent Features Adapter
The TeraWurfl UserAgent Features Adapter
The UserAgent Storage Interface
The Session UserAgent Storage Adapter
Zend_InfoCard
導入
Zend_Json
導入
基本的な使用法
Zend_Json の高度な使用法
XML から JSON への変換
Zend_Json_Server - JSON-RPCサーバー
Zend_Layout
導入
Zend_Layout クイックスタート
Zend_Layout の設定オプション
Zend_Layout の高度な使用法
Zend_Ldap
導入
API概要
利用シナリオ
ツール
Zend_Ldap_Nodeを使用してLDAPツリーへのオブジェクト指向アクセス
LDAPサーバから情報を取得
LDIFへ、または、からのLDAPデータシリアライズ
Zend_Loader
ファイルやクラスの動的な読み込み
The Autoloader
Resource Autoloaders
プラグインのロード
Zend_Locale
導入
Zend_Locale の使用法
正規化および地域化
日付および時刻の扱い
サポートするロケール
Zend_Log
概要
ライター
フォーマッタ
フィルタ
Using the Factory to Create a Log
Zend_Mail
導入
SMTP 経由での送信
SMTP 接続による複数のメールの送信
異なる転送手段の使用
HTML メール
ファイルの添付
受信者の追加
MIME バウンダリの制御
追加のヘッダ
文字セット
エンコーディング
SMTP 認証
セキュアな SMTP トランスポート
メールメッセージの読み込み
Zend_Markup
導入
さあ始めましょう
Zend_Markup パーサー
Zend_Markup レンダラー
Zend_Measure
導入
計測値の作成
計測値の出力
計測値の操作
計測値の型
Zend_Memory
概要
メモリマネージャ
メモリオブジェクト
Zend_Mime
Zend_Mime(日本語)
Zend_Mime_Message(日本語)
Zend_Mime_Part(日本語)
Zend_Navigation
導入
画面
Containers
Zend_Oauth
Introduction to OAuth
Zend_OpenId
導入
Zend_OpenId_Consumer の基本
Zend_OpenId_Provider(日本語)
Zend_Paginator
導入
使用法
設定
高度な使用法
Zend_Pdf
導入
PDF ドキュメントの作成および読み込み
PDF ドキュメントへの変更内容の保存
ページの操作
描画
Interactive Features
ドキュメントの情報およびメタデータ
Zend_Pdf モジュールの使用例
Zend_ProgressBar
Zend_ProgressBar(日本語)
Zend_Queue
導入
使用例
フレームワーク
アダプタ
Zend_Queueのカスタマイズ
Stomp(日本語)
Zend_Reflection
導入
Zend_Reflectionサンプル
Zend_Reflectionリファレンス
Zend_Registry
レジストリの使用法
Zend_Rest
導入
Zend_Rest_Client(日本語)
Zend_Rest_Server(日本語)
Zend_Search_Lucene
概要
インデックスの構築
インデックスの検索
クエリ言語
クエリ作成用の API
文字セット
拡張性
Java Lucene との相互運用
応用
ベストプラクティス
Zend_Serializer
導入
Zend_Serializer_Adapter
Zend_Server
導入
Zend_Server_Reflection(日本語)
Zend_Service
導入
Zend_Service_Akismet(日本語)
Zend_Service_Amazon(日本語)
Zend_Service_Amazon_Ec2(日本語)
Zend_Service_Amazon_Ec2: Instances
Zend_Service_Amazon_Ec2: Windows Instances
Zend_Service_Amazon_Ec2: Reserved Instances
Zend_Service_Amazon_Ec2: CloudWatch Monitoring
Zend_Service_Amazon_Ec2: Amazon Machine Images (AMI)
Zend_Service_Amazon_Ec2: Elastic Block Storage (EBS)
Zend_Service_Amazon_Ec2: Elastic IP Addresses
Zend_Service_Amazon_Ec2: Keypairs(日本語)
Zend_Service_Amazon_Ec2:リージョンおよび利用可能ゾーン
Zend_Service_Amazon_Ec2: Security Groups
Zend_Service_Amazon_S3
Zend_Service_Amazon_Sqs
Zend_Service_Audioscrobbler(日本語)
Zend_Service_Delicious(日本語)
Zend_Service_DeveloperGarden
Zend_Service_Ebay
Zend_Service_Ebay_Finding
Zend_Service_Flickr(日本語)
Zend_Service_LiveDocx
Zend_Service_Nirvanix(日本語)
Zend_Service_ReCaptcha(日本語)
Zend_Service_ShortUrl
Zend_Service_Simpy(日本語)
Zend_Service_SlideShare(日本語)
Zend_Service_StrikeIron(日本語)
Zend_Service_StrikeIron: バンドルされているサービス
Zend_Service_StrikeIron: 応用編
Zend_Service_Technorati(日本語)
Zend_Service_Twitter
Zend_Service_WindowsAzure
Zend_Service_WindowsAzure_Storage_Blob
Zend_Service_WindowsAzure_Diagnostics_Manager
Zend_Service_WindowsAzure_Storage_Queue
Zend_Service_WindowsAzure_Storage_Table
Zend_Service_Yahoo(日本語)
Zend_Session
導入
基本的な使用法
高度な使用法
グローバルセッションの管理
Zend_Session_SaveHandler_DbTable(日本語)
Zend_Soap
Zend_Soap_Server(日本語)
Zend_Soap_Client(日本語)
WSDLアクセッサ
自動検出
Zend_Tag
導入
Zend_Tag_Cloud
Zend_Test
導入
Zend_Test_PHPUnit(日本語)
Zend_Test_PHPUnit_Db(日本語)
Zend_Text
Zend_Text_Figlet(日本語)
Zend_Text_Table(日本語)
Zend_TimeSync
導入
Zend_TimeSync の動作
Zend_Tool
Using Zend_Tool On The Command Line
Extending Zend_Tool
Zend_Tool_Framework
導入
CLIツールの使用
アーキテクチャ
Zend_Tool_Frameworkを利用してプロバイダを作成する
出荷されたシステムプロバイダー
Extending and Configuring Zend_Tool_Framework
Zend_Tool_Project
導入
プロジェクトを作成
Zend_Tool Project Providers
Zend_Tool_Project Internals
Zend_Translate
導入
Zend_Translate のアダプタ
翻訳アダプタの使用法
ソースファイルの作成
翻訳用の追加機能
Plural notations for Translation
Zend_Uri
Zend_Uri(日本語)
Zend_Validate
導入
標準のバリデーションクラス群
バリデータチェイン
バリデータの書き方
検証メッセージ(一部日本語)
Zend_Version
Zend Framework のバージョンの取得
Zend_View
導入
コントローラスクリプト
ビュースクリプト
ビューヘルパー
Zend_View_Abstract(日本語)
Zend_Wildfire
Zend_Wildfire(日本語)
Zend_XmlRpc
導入
Zend_XmlRpc_Client
Zend_XmlRpc_Server(日本語)
ZendX_Console_Process_Unix
ZendX_Console_Process_Unix
ZendX_JQuery
Introduction
ZendX_JQuery View Helpers
ZendX_JQuery Form Elements and Decorators
Zend Framework のシステム要件
導入
Zend Framework 移行上の注意
Zend Framework 1.10(一部日本語)
Zend Framework 1.9(一部日本語)
Zend Framework 1.8(日本語)
Zend Framework 1.7(日本語)
Zend Framework 1.6(日本語)
Zend Framework 1.5(日本語)
Zend Framework 1.0(日本語)
Zend Framework 0.9(日本語)
Zend Framework 0.8(日本語)
Zend Framework 0.6(日本語)
Zend Framework PHP 標準コーディング規約
概要
PHP ファイルの書式
命名規約
コーディングスタイル
Zend Framework ドキュメント標準(一部日本語)
概要
ドキュメントファイル形式
推奨事項
Zend Framework MVC アプリケーションのために推奨されるプロジェクト構造
概要
推奨されるプロジェクト・ディレクトリ構造
モジュール構造
リライト設定ガイド
Zend Framework パフォーマンスガイド
導入
クラスの読み込み
Zend_Dbパフォーマンス
国際化(i18n)とローカライズ(l10n)
ビューのレンダリング
著作権に関する情報