Previous Next

クエリ言語

Java Lucene および Zend_Search_Lucene では、非常に強力なクエリ言語を使用できます。

これらの言語はほぼ同じものですが、微妙に異なる点もあります。 異なる点については以下で説明します。

Java Lucene のクエリ言語の文法についての完全な文書は » ここ にあります。

用語

クエリは、単語と演算子から成り立ちます。単語には三種類の形式があります。 単一の単語、フレーズ、そしてサブクエリです。

単一の単語とは、"test" や "hello" のようなひとつの単語です。

フレーズとは、ダブルクォートで囲まれた複数の単語のグループ、たとえば "hello dolly" です。

サブクエリとは、括弧で囲まれたクエリ、たとえば "(hello dolly)" です。

複数の単語を論理演算子で組み合わせることで、より複雑なクエリを作成できます (以下を参照ください)。

フィールド

Lucene は、フィールド指定したデータをサポートしています。 検索を行う際には、クエリを指定することもできますし、 デフォルトのフィールドを使用することもできます。 フィールド名はインデックス化されたデータに依存します。また、 デフォルトのフィールドは現在の設定によって決まります。

Java Lucene との最初の (そしてもっとも大きな) 違いは、デフォルトでは すべてのフィールド が検索の対象になるということです。

Zend_Search_Lucene クラスにはふたつの静的メソッドがあり、 この設定を操作することができます。

$defaultSearchField = Zend_Search_Lucene::getDefaultSearchField();
...
Zend_Search_Lucene::setDefaultSearchField('contents');

NULL 値は、すべてのフィールドを検索の対象とすることを意味します。 これがデフォルトの設定です。

特定のフィールドを検索するには、まずフィールド名をタイプし、その後にコロン ":" を続け、探したい単語を指定します。

例を見てみましょう。Lucene インデックスにはふたつのフィールド title および text があり、text がデフォルトのフィールドであるとします。 タイトルが "The Right Way" で本文に "don't go this way" が含まれるドキュメントを探したいなら、

title:"The Right Way" AND text:go

あるいは

title:"Do it right" AND go

とします。"text" はデフォルトのフィールドなので、フィールドの指定は必須ではなくなります。

注意: フィールドが有効なのは、その直後にある単語、 フレーズあるいはサブクエリだけであることに注意しましょう。つまり、クエリ

title:Do it right
は "Do" だけを title フィールドから探し、"it" や "right" はデフォルトのフィールドから探します。デフォルトのフィールドが NULL に設定されている場合は、"it" や "right" はすべてのフィールドから探します。

ワイルドカード

Lucene は、単一の文字あるいは複数の文字を表すワイルドカードをサポートしています これは、単語検索でのみ使用可能です (フレーズクエリでは使用できません)。

単一の文字を表すワイルドカードは "?" です。

複数の文字を表すワイルドカードは "*" です。

単一文字のワイルドカードは、 単語の中の "?" を別の一文字に置き換えたものにマッチする単語を探します。 たとえば、"text" あるいは "test" を探したい場合は

te?t
とします。

複数文字のワイルドカードは、0 個以上の任意の数の文字に対応します。 たとえば test、tests あるいは tester を探したい場合は

test*
とします。

"?" や "*" は単語のどの部分でも使え、 また両方を同時に使うこともできます。たとえば

*wr?t*
は、"write" や "wrote"、"written"、"rewrite"、"rewrote" などに対応します。

ZF 1.7.7 以降、ワイルドカードパターンにはワイルドカード以外のプレフィックスが必要となりました。 デフォルトのプレフィックスの長さは 3 (Java Lucene と同じ) です。 つまり "*", "te?t", "*wr?t*" といった単語は例外を引き起こします[1] Zend_Search_Lucene_Search_QueryParserExceptionZend_Search_Lucene_Exception

これは、Zend_Search_Lucene_Search_Query_Wildcard::getMinPrefixLength() および Zend_Search_Lucene_Search_Query_Wildcard::setMinPrefixLength() メソッドで変更することができます。

単語の修正子

Lucene は、クエリの単語を修飾して幅広い検索オプションを指定することをサポートしています。

"~" 修正子を使用すると、 フレーズに対する近接検索や個別の単語に対するあいまい検索が可能となります。

範囲検索

範囲検索は、フィールドの値の下限と上限を指定して その範囲に含まれるドキュメントを探すものです。 最大値と最小値そのものを含めることも含めないこともできます。 並べ替えは、辞書順で行われます。

mod_date:[20020101 TO 20030101]
これは、mod_date フィールドの値が 20020101 から 20030101 (両端を含む) であるドキュメントを探します。 範囲検索は、日付フィールド以外でも使えることに注意しましょう。
title:{Aida TO Carmen}
これは、タイトルが Aida から Carmen までの間にあるドキュメントを探します。 ただし、Aida および Carmen は含めません。

両端の値を含めるには角括弧 []、含めない場合は波括弧 {} でクエリを指定します。

フィールドを指定しなかった場合は、Zend_Search_Lucene はすべてのフィールドに対して範囲検索を行います。

{Aida TO Carmen}

あいまい検索

Zend_Search_Lucene は、Java Lucene と同様にあいまい検索をサポートします。 これは、レーベンシュタイン距離のアルゴリズムにもとづくものです。 あいまい検索を行うには、チルダ記号 "~" を単語の最後に指定します。 たとえば、"roam" と似たスペルの単語を探すには、次のようなあいまい検索を使用します。

roam~
この検索は、foam あるいは roams といった単語にマッチします。 (オプションの) 追加のパラメータによって、 あいまい検索の程度を指定することができます。 このパラメータの値は 0 から 1 までの間となり、 1 に近づくほど、類似点が多い単語にのみマッチするようになります。 たとえば次のように使用します。
roam~0.8
このパラメータを省略した場合のデフォルトは 0.5 です。

マッチする単語の制限

ワイルドカード検索や範囲検索、あいまい検索は、マッチする単語が多くなりすぎる可能性があります。 そんな場合は検索のパフォーマンスが大幅に低下してしまいます。

そこで、Zend_Search_Lucene はマッチする単語数の制限をクエリ (サブクエリ) 単位で設定します。 この制限を取得したり設定したりするには Zend_Search_Lucene::getTermsPerQueryLimit()/Zend_Search_Lucene::setTermsPerQueryLimit($limit) メソッドを使用します。

デフォルトのマッチ数の制限は、クエリ単位で 1024 です。

単語の強調

Java Lucene および Zend_Search_Lucene は、 見つかった単語にもとづいてドキュメントの関連度を提供します。 ある単語の関連性を高くするには、キャレット記号 "^" に強調度 (数値) をあわせたものを、検索する単語の最後につなげます。 強調度を高くするほど、その単語の関連性が高くなります。

この機能を使用すると、単語の強調度によってドキュメントの関連性を制御できるようになります。 たとえば

PHP framework
を検索しようとしており、単語 "PHP" をより重視したいとしましょう。 そんな場合は ^ 記号と強調度を単語の後に続けます。つまり
PHP^4 framework
のようにします。これにより、PHP という単語を含むドキュメントがより重視されるようになります。 フレーズやサブクエリを強調することも可能です。たとえば
"PHP framework"^4 "Zend Framework"
のようになります。デフォルトの強調度は 1 です。強調度には正の数値を指定しますが、 1 より小さくする (たとえば 0.2 など) ことも可能です。

論理演算子

論理演算子によって、複数の単語を組み合わせることができます。 Lucene では、論理演算子として AND、"+"、OR、NOT および "-" をサポートしています。Java Lucene では論理演算子をすべて大文字にする必要がありますが、 Zend_Search_Lucene ではその必要はありません。

論理クエリを作成するための方式は、大きく AND、OR および NOT の組と "+"、"-" の組に分けられます。Java Lucene とは異なり、Zend_Search_Lucene ではこれらの二つの組を混ぜて使うことはできません。

AND/OR/NOT 形式を使用する場合は、AND/OR 演算子がすべてのクエリ単語の間に存在する必要があります。 各単語の前には NOT 演算子をつけることができます。AND 演算子の優先順位は OR より高くなります。これは Java Lucene の挙動とは異なります。

AND

AND 演算子の意味は、"AND グループ" のすべての単語がドキュメントにマッチしなければならないということです。

"PHP framework" および "Zend Framework" を含むドキュメントを検索するには

"PHP framework" AND "Zend Framework"
を使用します。

OR

OR 演算子は、クエリをいくつかのオプションに分割します。

"PHP framework" あるいは "Zend Framework" を含むドキュメントを検索するには

"PHP framework" OR "Zend Framework"
を使用します。

NOT

NOT 演算子は、NOT の後に続く単語を含むドキュメントを除外します。 しかし "AND グループ" が NOT 演算子つきの単語しか含まない場合は、 インデックス化されたドキュメント全体ではなく空の結果を返します。

"PHP framework" を含むが "Zend Framework" は含まないドキュメントを検索するには

"PHP framework" AND NOT "Zend Framework"
を使用します。

&&、|| および ! 演算子

&&、|| および ! は、それぞれ AND、OR および NOT 演算子の代わりに使用します。

+

"+" 演算子 (必須演算子) は、 "+" 記号の後の単語が必ずドキュメントにマッチしなければならないことを意味します。

"Zend" を必ず含み、"Framework" を含んでも含まなくてもかまわないドキュメントを検索するには

+Zend Framework
を使用します。

-

"-" 演算子 (禁止演算子) は、 "-" 記号の後の単語を含むドキュメントを検索結果から除外します。

"PHP framework" は含むが "Zend Framework" は含まないドキュメントを検索するには

"PHP framework" -"Zend Framework"
を使用します。

演算子なし

演算子を使用しなかった場合は、 その挙動は "デフォルトの boolean 演算子" として定義されます。

これは、デフォルトでは OR となります。

つまり、その単語は任意となるということです。 その単語はドキュメント中に存在するかもしれないし、しないかもしれません。 ただ、その単語を含むドキュメントのほうが高いスコアとなります。

"PHP framework" は必須で "Zend Framework" は含んでも含まなくてもかまわないドキュメントを検索するには

+"PHP framework" "Zend Framework"
を使用します。

デフォルトの boolean 演算子を設定したり取得したりするには、それぞれ Zend_Search_Lucene_Search_QueryParser::setDefaultOperator($operator) および Zend_Search_Lucene_Search_QueryParser::getDefaultOperator() を使用します。

これらのメソッドで使用する定数は、 Zend_Search_Lucene_Search_QueryParser::B_AND および Zend_Search_Lucene_Search_QueryParser::B_OR です。

グループ化

Java Lucene および Zend_Search_Lucene では、 括弧を使用して条件をグループ化することによるサブクエリの作成をサポートしています。 これは、クエリのロジックを制御したい場合や異なるスタイルの論理クエリを共用したい場合などに便利です。

+(framework OR library) +php
Zend_Search_Lucene は、あらゆるレベルのサブクエリをサポートしています。

フィールドのグループ化

Lucene では、括弧を使用して複数の条件をひとつのフィールドに適用することができます。

タイトルに単語 "return" とフレーズ "pink panther" の両方を含むドキュメントを検索するには

title:(+return +"pink panther")
を使用します。Zend_Search_Lucene は、あらゆるレベルのサブクエリをサポートしています。

特殊文字のエスケープ

Lucene は、クエリの文法に含まれる特殊文字のエスケープをサポートしています。 特殊文字に含まれるの文字は次のとおりです。

+ - && || ! ( ) { } [ ] ^ " ~ * ? : \

+ および - が単一の単語の中に含まれる場合は、通常の文字として扱われます。

これらの文字をエスケープするには、その文字の前に \ をつけます。 たとえば、(1+1):2 を検索するには

\(1\+1\)\:2
を使用します。

[1]この例外は ではなく となることに注意しましょう。 この例外がスローされるのは、クエリの書き換え (実行) 操作のときです。
Previous Next
Introduction to Zend Framework
概要
インストール
Zend_Acl
導入
アクセス制御の洗練
高度な使用法
Zend_Amf
導入
Zend_Amf_Server
Zend_Application
導入
Zend_Application Quick Start
Theory of Operation
Examples
コア機能
利用できるリソースプラグイン
Zend_Auth
導入
データベースのテーブルでの認証
ダイジェスト認証
HTTP 認証アダプタ
LDAP 認証
Open ID 認証
Zend_Cache
導入
キャッシュの仕組み
Zend_Cache のフロントエンド
Zend_Cache のバックエンド
Zend_Captcha
導入
Captcha の方法
CAPTCHA アダプタ
Zend_CodeGenerator
導入
Zend_CodeGeneratorサンプル
Zend_CodeGeneratorリファレンス
Zend_Config
導入
動作原理
Zend_Config_Ini
Zend_Config_Xml
Zend_Config_Writer
Zend_Config_Writer
Zend_Console_Getopt
導入
Getopt の規則の宣言
オプションおよび引数の取得
Zend_Console_Getopt の設定
Zend_Controller
Zend_Controller クイックスタート
Zend_Controller の基本
フロントコントローラ
リクエストオブジェクト
標準のルータ
ディスパッチャ
アクションコントローラ
アクションヘルパー
レスポンスオブジェクト
プラグイン
モジュラーディレクトリ構造の規約の使用
MVC での例外
以前のバージョンからの移行
Zend_Currency
Zend_Currency について
通貨の操作方法
以前のバージョンからの移行
Zend_Date
導入
動作原理
基本メソッド
Zend_Date API の概要
日付の作成
日付関数全般用の定数
動作例
Zend_Db
Zend_Db_Adapter
Zend_Db_Statement
Zend_Db_Profiler
Zend_Db_Select
Zend_Db_Table
Zend_Db_Table_Row
Zend_Db_Table_Rowset
導入
Zend_Debug
変数の出力
Zend_Dojo
導入
Zend_Dojo_Data: dojo.data エンベロープ
Dojo ビューヘルパー
Dojoフォーム要素とデコレーター
Zend_Dom
導入
Zend_Dom_Query
Zend_Exception
例外の使用法
Zend_Feed
導入
フィードの読み込み
ウェブページからのフィードの取得
RSS フィードの使用
Atom フィードの使用
単一の Atom エントリの処理
フィードおよびエントリの構造の変更
独自のフィードクラスおよびエントリクラス
Zend_File
Zend_File_Transfer
Zend_File_Transfer 用のバリデータ
Filters for Zend_File_Transfer
以前のバージョンからの移行
Zend_Filter
導入
標準のフィルタクラス群
フィルタチェイン
フィルタの書き方
Zend_Filter_Input
Zend_Filter_Inflector
Zend_Form
Zend_Form
Zend_Form クイックスタート
Zend_Form_Element を用いたフォーム要素の作成
Zend_Form によるフォームの作成
Zend_Form_Decorator による独自のフォームマークアップの作成
Zend Framework に同梱されている標準のフォーム要素
Zend Framework に同梱されている標準のデコレータ
Zend_Form の国際化
Zend_Form の高度な使用法
Zend_Gdata
導入
AuthSub による認証
Using the Book Search Data API
ClientLogin による認証
Google Calendar の使用法
Google Documents List Data API の使用法
Using Google Health
Google Spreadsheets の使用法
Google Apps Provisioning の使用法
Google Base の使用法
Picasa Web Albums の使用法
YouTube Data API の使用法
Gdata の例外処理
Zend_Http
導入
Zend_Http_Client - 高度な使用法
Zend_Http_Client - 接続アダプタ
Zend_Http_Cookie および Zend_Http_CookieJar
Zend_Http_Response
Zend_InfoCard
導入
Zend_Json
導入
基本的な使用法
Zend_Json の高度な使用法
XML から JSON への変換
Zend_Json_Server - JSON-RPCサーバー
Zend_Layout
導入
Zend_Layout クイックスタート
Zend_Layout の設定オプション
Zend_Layout の高度な使用法
Zend_Ldap
導入
Zend_Loader
ファイルやクラスの動的な読み込み
The Autoloader
Resource Autoloaders
プラグインのロード
Zend_Locale
導入
Zend_Locale の使用法
正規化および地域化
日付および時刻の扱い
サポートするロケール
以前のバージョンからの移行
Zend_Log
概要
ライター
フォーマッタ
フィルタ
Zend_Mail
導入
SMTP 経由での送信
SMTP 接続による複数のメールの送信
異なる転送手段の使用
HTML メール
ファイルの添付
受信者の追加
MIME バウンダリの制御
追加のヘッダ
文字セット
エンコーディング
SMTP 認証
セキュアな SMTP トランスポート
メールメッセージの読み込み
Zend_Measure
導入
計測値の作成
計測値の出力
計測値の操作
計測値の型
Zend_Memory
概要
メモリマネージャ
メモリオブジェクト
Zend_Mime
Zend_Mime
Zend_Mime_Message
Zend_Mime_Part
Zend_Navigation
Introduction
画面
Containers
Zend_OpenId
導入
Zend_OpenId_Consumer の基本
Zend_OpenId_Provider
Zend_Paginator
導入
使用法
設定
高度な使用法
Zend_Pdf
導入
PDF ドキュメントの作成および読み込み
PDF ドキュメントへの変更内容の保存
ページの操作
描画
ドキュメントの情報およびメタデータ
Zend_Pdf モジュールの使用例
Zend_ProgressBar
Zend_ProgressBar
Zend_Reflection
導入
Zend_Reflectionサンプル
Zend_Reflectionリファレンス
Zend_Registry
レジストリの使用法
Zend_Rest
導入
Zend_Rest_Client
Zend_Rest_Server
Zend_Search_Lucene
概要
インデックスの構築
インデックスの検索
クエリ言語
クエリ作成用の API
文字セット
拡張性
Java Lucene との相互運用
応用
ベストプラクティス
Zend_Server
導入
Zend_Server_Reflection
Zend_Service
導入
Zend_Service_Akismet
Zend_Service_Amazon
Zend_Service_Amazon_Ec2
Zend_Service_Amazon_Ec2: Instances
Zend_Service_Amazon_Ec2: Windows Instances
Zend_Service_Amazon_Ec2: Reserved Instances
Zend_Service_Amazon_Ec2: CloudWatch Monitoring
Zend_Service_Amazon_Ec2: Amazon Machine Images (AMI)
Zend_Service_Amazon_Ec2: Elastic Block Stroage (EBS)
Zend_Service_Amazon_Ec2: Elastic IP Addresses
Zend_Service_Amazon_Ec2: Keypairs
Zend_Service_Amazon_Ec2: Regions and Availability Zones
Zend_Service_Amazon_Ec2: Security Groups
Zend_Service_Amazon_S3
Zend_Service_Audioscrobbler
Zend_Service_Delicious
Zend_Service_Flickr
Zend_Service_Nirvanix
Zend_Service_ReCaptcha
Zend_Service_Simpy
導入
Zend_Service_StrikeIron
Zend_Service_StrikeIron: バンドルされているサービス
Zend_Service_StrikeIron: 応用編
Zend_Service_Technorati
Zend_Service_Twitter
Zend_Service_Yahoo
Zend_Session
導入
基本的な使用法
高度な使用法
グローバルセッションの管理
Zend_Session_SaveHandler_DbTable
Zend_Soap
Zend_Soap_Server
Zend_Soap_Client
WSDLアクセッサ
自動検出
Zend_Tag
Introduction
Zend_Tag_Cloud
Zend_Test
導入
Zend_Test_PHPUnit
Zend_Text
Zend_Text_Figlet
Zend_Text_Table
Zend_TimeSync
導入
Zend_TimeSync の動作
Zend_Tool_Framework
Introduction
Using the CLI Tool
Architecture
Creating Providers to use with Zend_Tool_Framework
Shipped System Providers
Zend_Tool_Project
Zend_Tool_Project導入
Create A Project
Zend Tool Project Providers
Zend_Translate
導入
Zend_Translate のアダプタ
翻訳アダプタの使用法
以前のバージョンからの移行
Zend_Uri
Zend_Uri
Zend_Validate
導入
標準のバリデーションクラス群
バリデータチェイン
バリデータの書き方
検証メッセージ
Zend_Version
Zend Framework のバージョンの取得
Zend_View
導入
コントローラスクリプト
ビュースクリプト
ビューヘルパー
Zend_View_Abstract
以前のバージョンからの移行
Zend_Wildfire
Zend_Wildfire
Zend_XmlRpc
導入
Zend_XmlRpc_Client
Zend_XmlRpc_Server
Zend Framework のシステム要件
導入
Zend Framework PHP 標準コーディング規約
概要
PHP ファイルの書式
命名規約
コーディングスタイル
Zend Framework Performance Guide
導入
クラスの読み込み
Zend_Dbパフォーマンス
国際化(i18n)とローカライズ(l10n)
ビューのレンダリング
著作権に関する情報