Previous Next

インデックスの検索

クエリの作成

インデックスを検索するには二通りの方法があります。 クエリパーサを使用して文字列からクエリを作成する方法と、 Zend_search_Lucene API を使用して独自のクエリを作成する方法です。

提供されているクエリパーサを使用する前に、以下の点を考慮してください。

  1. プログラムで生成したクエリ文字列をクエリパーサに渡そうとしているなら、 クエリ API を使用してクエリを直接作成すべきです。言い換えると、 クエリパーサというのは人間が入力したテキストのために設計されたものであり、 プログラムが生成したテキストのためのものではないのです。

  2. トークン化されていないフィールドについては、 クエリパーサを使用するよりも直接クエリに追加するほうが適しています。 フィールドの値がアプリケーションによって生成されるのなら、 フィールドのクエリ条件についても自動処理で作成すべきです。 クエリパーサが使用している解析器は、人間が入力したテキストを 単語に分解するために設計されています。 日付やキーワードなどのプログラムが生成した値は、 クエリ API で追加しなければなりません。

  3. 検索フォームにおいては、 テキストで入力された内容はクエリパーサを使用すべきでしょう。 その他のフィールド、例えば範囲指定やキーワードなどについては、 クエリ API に直接渡すようにしましょう。 限られた内容、例えばプルダウンメニューで選択するフィールドは、 クエリ文字列に追加すべきではありません。 その代わりに、TermQuery 条件として使用します。

  4. 論理クエリにより、複数のクエリをひとつにまとめることができます。 これは、クエリ文字列で定義されるユーザ検索に条件を追加するための最良な方法です。

どちらの方法を使用したとしても、インデックスを検索する API メソッドは同じです。

find($query);

Zend_Search_Lucene::find() メソッドは、 入力の型を自動的に判別し、クエリパーサを使用して文字列から Zend_Search_Lucene_Search_Query オブジェクトを作成します。

重要なのは、クエリパーサは標準の解析器を使用してクエリ文字列をトークン化するということです。 インデックス化されたテキストに対するすべての変換は、クエリ文字列エントリに対しても行われます。

小文字変換を行うことで大文字小文字を区別しない検索を行えるようにしたり、 ストップワードを取り除いたりといったさまざまなことを行います。

それに対して、API メソッドは単語の変換やフィルタリングを行いません。これは、 コンピュータが生成したフィールドやトークン化されていないフィールドに適しています。

クエリのパース

Zend_Search_Lucene_Search_QueryParser::parse() メソッドを使用してクエリ文字列をパースし、 クエリオブジェクトに格納します。

このオブジェクトをクエリ作成 API メソッドで使用し、 ユーザが入力したクエリと機械が生成したクエリを結合します。

実際のところ、これが トークン化されたいないフィールドを検索する唯一の方法となることもあります。

addSubquery($userQuery, true /* required */);
$query->addSubquery($pathQuery, true /* required */);

$hits = $index->find($query);

Zend_Search_Lucene_Search_QueryParser::parse() メソッドはオプションのパラメータでエンコーディングを受け取ることができます。 ここで、クエリ文字列のエンコーディングを指定します。



            

エンコーディングを省略した場合は、現在のロケールを使用します。

デフォルトのクエリ文字列エンコーディングを Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding() メソッドで指定することもできます。



            

Zend_Search_Lucene_Search_QueryParser::getDefaultEncoding() は、デフォルトのクエリ文字列エンコーディングを返します (空文字列は "現在のロケール" を表します)。

検索結果

検索結果は Zend_Search_Lucene_Search_QueryHit オブジェクトの配列となります。 各オブジェクトは、2 つのプロパティを保持しています。 $hit->document がインデックス内のドキュメント番号、 $hit->score が検索結果のスコアを表します。 結果はスコア順に並べられます (スコアの高い結果が最初になります)。

Zend_Search_Lucene_Search_QueryHit オブジェクトでは、 検索結果としてヒットした Zend_Search_Lucene_Document の各フィールドも公開しています。 この例で、ヒットしたドキュメントには title と author の 2 つのフィールドが含まれています。

find($query);

foreach ($hits as $hit) {
    echo $hit->score;
    echo $hit->title;
    echo $hit->author;
}

保存されたフィールドは、常に UTF-8 エンコーディングで返されます。

オプションで、 Zend_Search_Lucene_Search_QueryHit から元の Zend_Search_Lucene_Document を取得することができます。 保存されたドキュメントを取得するには、 インデックスオブジェクトの getDocument() メソッドを使用し、その getFieldValue() メソッドでフィールドの値を取得します。

find($query);
foreach ($hits as $hit) {
    // ヒットした結果の Zend_Search_Lucene_Document オブジェクトを返します
    echo $document = $hit->getDocument();

    // Zend_Search_Lucene_Document から
    // Zend_Search_Lucene_Field オブジェクトを返します
    echo $document->getField('title');

    // Zend_Search_Lucene_Field オブジェクトを値を文字列で返します
    echo $document->getFieldValue('title');

    // getFieldValue() と同じです
    echo $document->title;
}

Zend_Search_Lucene_Document オブジェクトで使用可能なフィールドは、 インデックス化の際に決まります。ドキュメントのフィールドは、 インデックス化用アプリケーション (例えば LuceneIndexCreation.jar) によってインデックス化、あるいはインデックス化して保存されます。

ドキュメントを識別するフィールド (例では 'path') もインデックス化して取得できるようにしなければならないことに注意しましょう。

結果の制限

検索処理の中でいちばん時間がかかるのが、スコアの計算です。 検索結果の数が多い (数万件程度) 場合、これには数秒程度かかることもあります。

Zend_Search_Lucene では、結果セットの件数を制限するためのメソッドとして getResultSetLimit()setResultSetLimit() を用意しています。



            0 (デフォルト値) は、'制限しない' という意味です。
        

このメソッドが返す結果は、'スコアの高いほうから N 件' ではなく あくまで '最初の N 件' [1] です。

結果の重み付け

Zend_Search_Lucene は、Java Lucene と同じ重み付けアルゴリズムを使用します。 検索結果に一致したものが、デフォルトで重み順に並べ替えられます。スコアの高いものが先頭となり、 スコアの高いもののほうが低いものよりクエリにマッチするようになります。

大雑把に言うと、文書の中に検索語句が頻繁に登場するほどスコアが高くなります。

検索結果のスコアを取得するには score プロパティを使用します。

find($query);

foreach ($hits as $hit) {
    echo $hit->id;
    echo $hit->score;
}

重みを計算するために使用されるのが Zend_Search_Lucene_Search_Similarity クラスです。詳細は 拡張性 - 重み付けのアルゴリズム を参照ください。

検索結果の並べ替え

検索結果は、デフォルトではスコアで並べ替えられます。 これを変更するには、並べ替え用の (ひとつあるいは複数の) フィールドと並べ替えの形式、そして並べ替えの方向をパラメータで指定します。 and sort order parameters.

$index->find() のコール時に、オプションのパラメータを指定することができます。

find($query [, $sortField [, $sortType [, $sortOrder]]] [, $sortField2 [, $sortType [, $sortOrder]]] ...);

$sortField は、結果の並べ替えを行う保存されたフィールドの名前です。

$sortType は省略可能です。 SORT_REGULAR (通常の並べ替え。デフォルト)、 SORT_NUMERIC (数値として並べ替え)、 SORT_STRING (文字列として並べ替え) のいずれかとなります。

$sortOrder は省略可能です。 SORT_ASC (昇順で並べ替え。デフォルト)、 SORT_DESC (降順で並べ替え) のいずれかとなります。

例を以下に示します。

find($query, 'quantity', SORT_NUMERIC, SORT_DESC);
find($query, 'fname', SORT_STRING, 'lname', SORT_STRING);
find($query, 'name', SORT_STRING, 'quantity', SORT_NUMERIC, SORT_DESC);

デフォルト以外の並び順を使用する際には注意しましょう。 並べ替えのためにはドキュメント全体をインデックスから読み込む必要があり、 検索のパフォーマンスが著しく低下してしまいます。

検索結果の強調

Zend_Search_Lucene_Search_Query::highlightMatches() メソッドを使用すると、HTML ドキュメントの中で検索用語を強調させることができます。

find($query);
...
$highlightedHTML = $query->highlightMatches($sourceHTML);

highlightMatches() メソッドは、HTML の処理の際に Zend_Search_Lucene_Document_Html クラスを使用しています (詳細は HTML ドキュメントの節 を参照ください)。つまり、HTML ソースと同じ条件が適用されます。

[1] しかし、返される結果はスコア順 (あるいはその他指定した順) で並べ替えられています。
Previous Next
Introduction to Zend Framework
概要
インストール
Zend_Acl
導入
アクセス制御の洗練
高度な使用法
Zend_Auth
導入
データベースのテーブルでの認証
ダイジェスト認証
HTTP 認証アダプタ
LDAP 認証
Open ID 認証
Zend_Cache
導入
キャッシュの仕組み
Zend_Cache のフロントエンド
Zend_Cache のバックエンド
Zend_Captcha
Introduction
Captcha Operation
Captcha Adapters
Zend_Config
導入
動作原理
Zend_Config_Ini
Zend_Config_Xml
Zend_Console_Getopt
Getopt について
Getopt の規則の宣言
オプションおよび引数の取得
Zend_Console_Getopt の設定
Zend_Controller
Zend_Controller クイックスタート
Zend_Controller の基本
フロントコントローラ
リクエストオブジェクト
標準のルータ: Zend_Controller_Router_Rewrite
ディスパッチャ
アクションコントローラ
アクションヘルパー
レスポンスオブジェクト
プラグイン
モジュラーディレクトリ構造の規約の使用
MVC での例外
以前のバージョンからの移行
Zend_Currency
Zend_Currency について
通貨の操作方法
以前のバージョンからの移行
Zend_Date
導入
動作原理
基本メソッド
Zend_Date API の概要
日付の作成
日付関数全般用の定数
動作例
Zend_Db
Zend_Db_Adapter
Zend_Db_Statement
Zend_Db_Profiler
Zend_Db_Select
Zend_Db_Table
Zend_Db_Table_Row
Zend_Db_Table_Rowset
導入
Zend_Debug
変数の出力
Zend_Dojo
Introduction
Zend_Dojo_Data: dojo.data Envelopes
Dojo View Helpers
Dojo Form Elements and Decorators
Zend_Dom
導入
Zend_Dom_Query
Zend_Exception
例外の使用法
Zend_Feed
導入
フィードの読み込み
ウェブページからのフィードの取得
RSS フィードの使用
Atom フィードの使用
単一の Atom エントリの処理
フィードおよびエントリの構造の変更
独自のフィードクラスおよびエントリクラス
Zend_File
Zend_File_Transfer
Validators for Zend_File_Transfer
Zend_Filter
導入
標準のフィルタクラス群
フィルタチェイン
フィルタの書き方
Zend_Filter_Input
Zend_Filter_Inflector
Zend_Form
Zend_Form
Zend_Form クイックスタート
Zend_Form_Element を用いたフォーム要素の作成
Zend_Form によるフォームの作成
Zend_Form_Decorator による独自のフォームマークアップの作成
Zend Framework に同梱されている標準のフォーム要素
Zend Framework に同梱されている標準のデコレータ
Zend_Form の国際化
Zend_Form の高度な使用法
Zend_Gdata
Gdata について
AuthSub による認証
ClientLogin による認証
Google Calendar の使用法
Google Documents List Data API の使用法
Google Spreadsheets の使用法
Google Apps Provisioning の使用法
Google Base の使用法
YouTube Data API の使用法
Picasa Web Albums の使用法
Gdata の例外処理
Zend_Http
Zend_Http_Client - 導入
Zend_Http_Client - 高度な使用法
Zend_Http_Client - 接続アダプタ
Zend_Http_Cookie および Zend_Http_CookieJar
Zend_Http_Response
Zend_InfoCard
導入
Zend_Json
導入
基本的な使用法
JSON オブジェクト
XML から JSON への変換
Zend_Json_Server - JSON-RPC server
Zend_Layout
導入
Zend_Layout クイックスタート
Zend_Layout の設定オプション
Zend_Layout の高度な使用法
Zend_Ldap
導入
Zend_Loader
ファイルやクラスの動的な読み込み
プラグインのロード
Zend_Locale
導入
Zend_Locale の使用法
正規化および地域化
日付および時刻の扱い
ロケールがサポートする言語
ロケールがサポートする地域
Zend_Log
概要
ライター
フォーマッタ
フィルタ
Zend_Mail
導入
SMTP 経由での送信
SMTP 接続による複数のメールの送信
異なる転送手段の使用
HTML メール
ファイルの添付
受信者の追加
MIME バウンダリの制御
追加のヘッダ
文字セット
エンコーディング
SMTP 認証
セキュアな SMTP トランスポート
メールメッセージの読み込み
Zend_Measure
導入
計測値の作成
計測値の出力
計測値の操作
計測値の型
Zend_Memory
概要
メモリマネージャ
メモリオブジェクト
Zend_Mime
Zend_Mime
Zend_Mime_Message
Zend_Mime_Part
Zend_OpenId
導入
Zend_OpenId_Consumer の基本
Zend_OpenId_Provider
Zend_Paginator
Introduction
Usage
Configuration
Advanced usage
Zend_Pdf
導入
PDF ドキュメントの作成および読み込み
PDF ドキュメントへの変更内容の保存
ドキュメントのページ
描画
ドキュメントの情報およびメタデータ
Zend_Pdf モジュールの使用例
Zend_Registry
レジストリの使用法
Zend_Rest
導入
Zend_Rest_Client
Zend_Rest_Server
Zend_Search_Lucene
概要
インデックスの構築
インデックスの検索
クエリ言語
クエリ作成用の API
文字セット
拡張性
Java Lucene との相互運用
応用
ベストプラクティス
Zend_Server
導入
Zend_Server_Reflection
Zend_Service
導入
Zend_Service_Akismet
Zend_Service_Amazon
Zend_Service_Audioscrobbler
Zend_Service_Delicious
Zend_Service_Flickr
Zend_Service_Nirvanix
Zend_Service_ReCaptcha
Zend_Service_Simpy
導入
Zend_Service_StrikeIron
Zend_Service_StrikeIron: バンドルされているサービス
Zend_Service_StrikeIron: 応用編
Zend_Service_Technorati
Zend_Service_Yahoo
Zend_Session
導入
基本的な使用法
高度な使用法
グローバルセッションの管理
Zend_Session_SaveHandler_DbTable
Zend_Soap
Zend_Soap_Server
Zend_Soap_Client
WSDL Accessor
AutoDiscovery. Introduction
Class autodiscovering.
Functions autodiscovering.
Autodiscovering. Datatypes.
Zend_Test
Introduction
Zend_Test_PHPUnit
Zend_Text
Zend_Text_Figlet
Zend_TimeSync
導入
Zend_TimeSync の動作
Zend_Translate
導入
Zend_Translate のアダプタ
翻訳アダプタの使用法
Zend_Uri
Zend_Uri
Zend_Validate
導入
標準のバリデーションクラス群
バリデータチェイン
バリデータの書き方
Zend_Version
Zend Framework のバージョンの取得
Zend_View
導入
コントローラスクリプト
ビュースクリプト
ビューヘルパー
Zend_View_Abstract
Zend_Wildfire
Zend_Wildfire
Zend_XmlRpc
導入
Zend_XmlRpc_Client
Zend_XmlRpc_Server
Zend Framework のシステム要件
PHP のバージョン
PHP の拡張モジュール
Zend Framework のコンポーネント
Zend Framework の依存性
Zend Framework PHP 標準コーディング規約
概要
PHP ファイルの書式
命名規約
コーディングスタイル
著作権に関する情報