Previous Next

拡張性

テキスト解析

Zend_Search_Lucene_Analysis_Analyzer クラスは、 ドキュメントのテキストフィールドをトークン化 (単語に分解) する際にインデクサが使用します。

Zend_Search_Lucene_Analysis_Analyzer::getDefault() および Zend_Search_Lucene_Analysis_Analyzer::setDefault() メソッドで、デフォルトの解析器を取得あるいは設定します。

したがって、独自のテキスト解析器を指定したり、 定義済みの解析器である Zend_Search_Lucene_Analysis_Analyzer_Common_Text および Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive (デフォルト) の中から選んだものを指定したりできることになります。 これらの解析器はどちらもトークンを文字列として解釈しますが、 Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive はトークンを小文字に変換します。

解析器を変更するには、以下のようにします。

Zend_Search_Lucene_Analysis_Analyzer::setDefault(
    new Zend_Search_Lucene_Analysis_Analyzer_Common_Text());
...
$index->addDocument($doc);

ユーザ定義の解析器のための共通の親クラスとして設計されているのが Zend_Search_Lucene_Analysis_Analyzer_Common です。 ユーザが定義しなければならないのは reset() および nextToken() メソッドのみで、 これは文字列を $_input から受け取って順に返します (NULL が最後のデータを表します)。

nextToken() メソッドでは、各トークンに対して normalize() メソッドを適用しなければなりません。 これにより、作成した解析器をトークンフィルタとして使用できるようになります。

独自のテキスト解析器の例を示します。 これは、数字つきの単語をひとつの言葉として扱います。

Example #1 独自のテキスト解析器

/**
 * これは独自のテキスト解析器で、数字つきの単語をひとつの言葉として
 * 扱います
 */

class My_Analyzer extends Zend_Search_Lucene_Analysis_Analyzer_Common
{
    private $_position;

    /**
     * トークンストリームをリセットします
     */
    public function reset()
    {
        $this->_position = 0;
    }

    /**
     * トークンストリーム API
     * 次のトークンを取得します。
     * ストリームの最後に達すると null を返します。
     *
     * @return Zend_Search_Lucene_Analysis_Token|null
     */
    public function nextToken()
    {
        if ($this->_input === null) {
            return null;
        }

        while ($this->_position < strlen($this->_input)) {
            // 空白を読み飛ばします
            while ($this->_position < strlen($this->_input) &&
                   !ctype_alnum( $this->_input[$this->_position] )) {
                $this->_position++;
            }

            $termStartPosition = $this->_position;

            // トークンを読み込みます
            while ($this->_position < strlen($this->_input) &&
                   ctype_alnum( $this->_input[$this->_position] )) {
                $this->_position++;
            }

            // 空のトークン、あるいはストリームが終了
            if ($this->_position == $termStartPosition) {
                return null;
            }

            $token = new Zend_Search_Lucene_Analysis_Token(
                                      substr($this->_input,
                                             $termStartPosition,
                                             $this->_position -
                                             $termStartPosition),
                                      $termStartPosition,
                                      $this->_position);
            $token = $this->normalize($token);
            if ($token !== null) {
                return $token;
            }
            // トークンがスキップされた場合は継続します
        }

        return null;
    }
}

Zend_Search_Lucene_Analysis_Analyzer::setDefault(
    new My_Analyzer());

トークンのフィルタリング

Zend_Search_Lucene_Analysis_Analyzer_Common 解析器には、トークンをフィルタリングする仕組みもあります。 mechanism.

Zend_Search_Lucene_Analysis_TokenFilter クラスは、このフィルタリングの仕組みを抽象化したものです。 自分でフィルタを作成する際には、これを継承します。

独自に作成するフィルタは、 normalize() メソッドを実装する必要があります。 このメソッドは、入力トークンを変換したり トークンを読み飛ばす指示を出したりします。

Analysis のサブパッケージとして、これらの三つのフィルタが定義されています。

  • Zend_Search_Lucene_Analysis_TokenFilter_LowerCase

  • Zend_Search_Lucene_Analysis_TokenFilter_ShortWords

  • Zend_Search_Lucene_Analysis_TokenFilter_StopWords

LowerCase フィルタは、既に Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive 解析器で使用されています。これはデフォルトの解析器です。

ShortWords および StopWords は、定義済み解析器あるいは独自の解析器でこのように使用します。

$stopWords = array('a', 'an', 'at', 'the', 'and', 'or', 'is', 'am');
$stopWordsFilter =
    new Zend_Search_Lucene_Analysis_TokenFilter_StopWords($stopWords);

$analyzer =
    new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
$analyzer->addFilter($stopWordsFilter);

Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);
$shortWordsFilter = new Zend_Search_Lucene_Analysis_TokenFilter_ShortWords();

$analyzer =
    new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
$analyzer->addFilter($shortWordsFilter);

Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);

Zend_Search_Lucene_Analysis_TokenFilter_StopWords のコンストラクタには、禁止単語の配列を入力として渡します。 この禁止単語はファイルから読み込ませることもできます。

$stopWordsFilter = new Zend_Search_Lucene_Analysis_TokenFilter_StopWords();
$stopWordsFilter->loadFromFile($my_stopwords_file);

$analyzer =
   new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
$analyzer->addFilter($stopWordsFilter);

Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);
ファイル形式は一般的なテキストファイルで、各文字列にひとつの単語が含まれるものとなります。 '#' を指定すると、その文字列はコメントであるとみなします。

Zend_Search_Lucene_Analysis_TokenFilter_ShortWords のコンストラクタには、オプションの引数をひとつ指定することができます。 これは単語長の制限を表し、デフォルト値は 2 です。

重み付けのアルゴリズム

クエリ q の、ドキュメント d に対するスコアは以下のように定義されます。

score(q,d) = sum( tf(t in d) * idf(t) * getBoost(t.field in d) * lengthNorm(t.field in d) ) * coord(q,d) * queryNorm(q)

tf(t in d) - Zend_Search_Lucene_Search_Similarity::tf($freq) - ドキュメント内での単語あるいは熟語の出現頻度に基づく重み要素。

idf(t) - Zend_Search_Lucene_Search_Similarity::tf($term, $reader) - 指定したインデックスに対する単純な単語の重み要素。

getBoost(t.field in d) - 単語のフィールドの重み。

lengthNorm($term) - フィールド内に含まれる単語の総数を正規化した値。 この値はインデックスに保存されます。 これらの値はフィールドの重みとともにインデックスに保存され、 検索コードによってヒットした各フィールドのスコアに掛けられます。

長いフィールドでマッチした場合は、あまり的確であるとはいえません。 そのため、このメソッドの実装は通常、 numTokens が大きいときにはより小さな値、 numTokens が小さいときにはより大きな値を返すようになっています。

coord(q,d) - Zend_Search_Lucene_Search_Similarity::coord($overlap, $maxOverlap) - ドキュメントに含まれる、検索対象の全単語の部分一致に基づく重み要素。

検索対象の単語のより多くの部分が存在しているほど、 検索結果としてよいものであるといえます。そのため、このメソッドの実装は通常、 これらのパラメータの割合が大きいときにはより大きな値、 割合が小さいときにはより小さな値を返すようになっています。

queryNorm(q) - 検索対象の各単語の重みの二乗の和で与えられる、クエリの正規化値。 この値は、検索対象の各単語の重みに掛けられます。

これは重み付けには影響しません。単に別のクエリの結果との差をなくすために使用されます。

重み付けのアルゴリズムを変更するには、独自の Similatity クラスを定義します。そのためには以下のように Zend_Search_Lucene_Search_Similarity クラスを継承し、 Zend_Search_Lucene_Search_Similarity::setDefault($similarity); メソッドでそれをデフォルトとして設定します。

class MySimilarity extends Zend_Search_Lucene_Search_Similarity {
    public function lengthNorm($fieldName, $numTerms) {
        return 1.0/sqrt($numTerms);
    }

    public function queryNorm($sumOfSquaredWeights) {
        return 1.0/sqrt($sumOfSquaredWeights);
    }

    public function tf($freq) {
        return sqrt($freq);
    }

    /**
     * 現在は使用しません。曖昧検索の曖昧度を計算します。
     */
    public function sloppyFreq($distance) {
        return 1.0;
    }

    public function idfFreq($docFreq, $numDocs) {
        return log($numDocs/(float)($docFreq+1)) + 1.0;
    }

    public function coord($overlap, $maxOverlap) {
        return $overlap/(float)$maxOverlap;
    }
}

$mySimilarity = new MySimilarity();
Zend_Search_Lucene_Search_Similarity::setDefault($mySimilarity);

保存先

抽象クラス Zend_Search_Lucene_Storage_Directory では、ディレクトリ機能を提供しています。

Zend_Search_Lucene のコンストラクタでは、文字列あるいは Zend_Search_Lucene_Storage_Directory オブジェクトを入力として使用します。

Zend_Search_Lucene_Storage_Directory_Filesystem クラスは、 ファイルシステム用のディレクトリ機能を実装しています。

Zend_Search_Lucene コンストラクタの入力に文字列を使用すると、 インデックスリーダ (Zend_Search_Lucene オブジェクト) はそれをファイルシステムのパスと解釈し、 Zend_Search_Lucene_Storage_Directory_Filesystem オブジェクトのインスタンスを作成します。

独自のディレクトリ機能を実装するには、 Zend_Search_Lucene_Storage_Directory クラスを継承します。

Zend_Search_Lucene_Storage_Directory のメソッドは以下のとおりです。

abstract class Zend_Search_Lucene_Storage_Directory {
/**
 * 保存先を閉じます
 *
 * @return void
 */
abstract function close();

/**
 * $filename という名前の新しい空のファイルを、ディレクトリ内に作成します
 *
 * @param string $name
 * @return void
 */
abstract function createFile($filename);

/**
 * 既存の $filename をディレクトリから削除します
 *
 * @param string $filename
 * @return void
 */
abstract function deleteFile($filename);

/**
 * $filename で指定したファイルが存在する場合に true を返します
 *
 * @param string $filename
 * @return boolean
 */
abstract function fileExists($filename);

/**
 * ディレクトリ内の $filename の長さを返します
 *
 * @param string $filename
 * @return integer
 */
abstract function fileLength($filename);

/**
 * $filename の最終更新日時を UNIX タイムスタンプで返します
 *
 * @param string $filename
 * @return integer
 */
abstract function fileModified($filename);

/**
 * ディレクトリ内の既存のファイルの名前を変更します
 *
 * @param string $from
 * @param string $to
 * @return void
 */
abstract function renameFile($from, $to);

/**
 * $filename の更新時刻を現在の時刻にします
 *
 * @param string $filename
 * @return void
 */
abstract function touchFile($filename);

/**
 * ディレクトリ内の $filename についての
 * Zend_Search_Lucene_Storage_File オブジェクトを返します
 *
 * @param string $filename
 * @return Zend_Search_Lucene_Storage_File
 */
abstract function getFileObject($filename);

}

Zend_Search_Lucene_Storage_Directory クラスの getFileObject($filename) メソッドは、 Zend_Search_Lucene_Storage_File オブジェクトを返します。

抽象クラス Zend_Search_Lucene_Storage_File では、 ファイルの抽象化およびインデックスファイルの基本的な読み込み機能を実装しています。

ディレクトリ機能を実装するには Zend_Search_Lucene_Storage_File クラスを継承しなければなりません。

Zend_Search_Lucene_Storage_File クラスを実装する際に オーバーロードしなければならないメソッドは 2 つだけです。

class MyFile extends Zend_Search_Lucene_Storage_File {
    /**
     * ファイル上の位置を指定し、そこにファイルポインタを進めます。
     * 新しい位置は、whence で指定した場所からオフセットのバイト数だけ
     * 進めた位置になります。whence に指定できる値は以下のいずれかです。
     * SEEK_SET - 先頭からオフセット分進めた位置に移動します。
     * SEEK_CUR - 現在位置からオフセット分だけ進めた位置に移動します。
     * SEEK_END - ファイルの終端からオフセット分だけ進めた位置に移動します。
     * (ファイルの終端から戻った位置を指定するには、オフセットに負の値を
     * 指定する必要があります)
     * 成功した場合に 0、それ以外の場合に -1 を返します。
     *
     * @param integer $offset
     * @param integer $whence
     * @return integer
     */
    public function seek($offset, $whence=SEEK_SET) {
        ...
    }

    /**
     * ファイルから $length バイトを読み込み、ファイルポインタを進めます。
     *
     * @param integer $length
     * @return string
     */
    protected function _fread($length=1) {
        ...
    }
}
Previous Next
Introduction to Zend Framework
概要
インストール
Zend_Acl
導入
アクセス制御の洗練
高度な使用法
Zend_Amf
導入
Zend_Amf_Server
Zend_Application
導入
Zend_Application Quick Start
Theory of Operation
Examples
コア機能
利用できるリソースプラグイン
Zend_Auth
導入
データベースのテーブルでの認証
ダイジェスト認証
HTTP 認証アダプタ
LDAP 認証
Open ID 認証
Zend_Cache
導入
キャッシュの仕組み
Zend_Cache のフロントエンド
Zend_Cache のバックエンド
Zend_Captcha
導入
Captcha の方法
CAPTCHA アダプタ
Zend_CodeGenerator
導入
Zend_CodeGeneratorサンプル
Zend_CodeGeneratorリファレンス
Zend_Config
導入
動作原理
Zend_Config_Ini
Zend_Config_Xml
Zend_Config_Writer
Zend_Config_Writer
Zend_Console_Getopt
導入
Getopt の規則の宣言
オプションおよび引数の取得
Zend_Console_Getopt の設定
Zend_Controller
Zend_Controller クイックスタート
Zend_Controller の基本
フロントコントローラ
リクエストオブジェクト
標準のルータ
ディスパッチャ
アクションコントローラ
アクションヘルパー
レスポンスオブジェクト
プラグイン
モジュラーディレクトリ構造の規約の使用
MVC での例外
以前のバージョンからの移行
Zend_Currency
Zend_Currency について
通貨の操作方法
以前のバージョンからの移行
Zend_Date
導入
動作原理
基本メソッド
Zend_Date API の概要
日付の作成
日付関数全般用の定数
動作例
Zend_Db
Zend_Db_Adapter
Zend_Db_Statement
Zend_Db_Profiler
Zend_Db_Select
Zend_Db_Table
Zend_Db_Table_Row
Zend_Db_Table_Rowset
導入
Zend_Debug
変数の出力
Zend_Dojo
導入
Zend_Dojo_Data: dojo.data エンベロープ
Dojo ビューヘルパー
Dojoフォーム要素とデコレーター
Zend_Dom
導入
Zend_Dom_Query
Zend_Exception
例外の使用法
Zend_Feed
導入
フィードの読み込み
ウェブページからのフィードの取得
RSS フィードの使用
Atom フィードの使用
単一の Atom エントリの処理
フィードおよびエントリの構造の変更
独自のフィードクラスおよびエントリクラス
Zend_File
Zend_File_Transfer
Zend_File_Transfer 用のバリデータ
Filters for Zend_File_Transfer
以前のバージョンからの移行
Zend_Filter
導入
標準のフィルタクラス群
フィルタチェイン
フィルタの書き方
Zend_Filter_Input
Zend_Filter_Inflector
Zend_Form
Zend_Form
Zend_Form クイックスタート
Zend_Form_Element を用いたフォーム要素の作成
Zend_Form によるフォームの作成
Zend_Form_Decorator による独自のフォームマークアップの作成
Zend Framework に同梱されている標準のフォーム要素
Zend Framework に同梱されている標準のデコレータ
Zend_Form の国際化
Zend_Form の高度な使用法
Zend_Gdata
導入
AuthSub による認証
Using the Book Search Data API
ClientLogin による認証
Google Calendar の使用法
Google Documents List Data API の使用法
Using Google Health
Google Spreadsheets の使用法
Google Apps Provisioning の使用法
Google Base の使用法
Picasa Web Albums の使用法
YouTube Data API の使用法
Gdata の例外処理
Zend_Http
導入
Zend_Http_Client - 高度な使用法
Zend_Http_Client - 接続アダプタ
Zend_Http_Cookie および Zend_Http_CookieJar
Zend_Http_Response
Zend_InfoCard
導入
Zend_Json
導入
基本的な使用法
Zend_Json の高度な使用法
XML から JSON への変換
Zend_Json_Server - JSON-RPCサーバー
Zend_Layout
導入
Zend_Layout クイックスタート
Zend_Layout の設定オプション
Zend_Layout の高度な使用法
Zend_Ldap
導入
Zend_Loader
ファイルやクラスの動的な読み込み
The Autoloader
Resource Autoloaders
プラグインのロード
Zend_Locale
導入
Zend_Locale の使用法
正規化および地域化
日付および時刻の扱い
サポートするロケール
以前のバージョンからの移行
Zend_Log
概要
ライター
フォーマッタ
フィルタ
Zend_Mail
導入
SMTP 経由での送信
SMTP 接続による複数のメールの送信
異なる転送手段の使用
HTML メール
ファイルの添付
受信者の追加
MIME バウンダリの制御
追加のヘッダ
文字セット
エンコーディング
SMTP 認証
セキュアな SMTP トランスポート
メールメッセージの読み込み
Zend_Measure
導入
計測値の作成
計測値の出力
計測値の操作
計測値の型
Zend_Memory
概要
メモリマネージャ
メモリオブジェクト
Zend_Mime
Zend_Mime
Zend_Mime_Message
Zend_Mime_Part
Zend_Navigation
Introduction
画面
Containers
Zend_OpenId
導入
Zend_OpenId_Consumer の基本
Zend_OpenId_Provider
Zend_Paginator
導入
使用法
設定
高度な使用法
Zend_Pdf
導入
PDF ドキュメントの作成および読み込み
PDF ドキュメントへの変更内容の保存
ページの操作
描画
ドキュメントの情報およびメタデータ
Zend_Pdf モジュールの使用例
Zend_ProgressBar
Zend_ProgressBar
Zend_Reflection
導入
Zend_Reflectionサンプル
Zend_Reflectionリファレンス
Zend_Registry
レジストリの使用法
Zend_Rest
導入
Zend_Rest_Client
Zend_Rest_Server
Zend_Search_Lucene
概要
インデックスの構築
インデックスの検索
クエリ言語
クエリ作成用の API
文字セット
拡張性
Java Lucene との相互運用
応用
ベストプラクティス
Zend_Server
導入
Zend_Server_Reflection
Zend_Service
導入
Zend_Service_Akismet
Zend_Service_Amazon
Zend_Service_Amazon_Ec2
Zend_Service_Amazon_Ec2: Instances
Zend_Service_Amazon_Ec2: Windows Instances
Zend_Service_Amazon_Ec2: Reserved Instances
Zend_Service_Amazon_Ec2: CloudWatch Monitoring
Zend_Service_Amazon_Ec2: Amazon Machine Images (AMI)
Zend_Service_Amazon_Ec2: Elastic Block Stroage (EBS)
Zend_Service_Amazon_Ec2: Elastic IP Addresses
Zend_Service_Amazon_Ec2: Keypairs
Zend_Service_Amazon_Ec2: Regions and Availability Zones
Zend_Service_Amazon_Ec2: Security Groups
Zend_Service_Amazon_S3
Zend_Service_Audioscrobbler
Zend_Service_Delicious
Zend_Service_Flickr
Zend_Service_Nirvanix
Zend_Service_ReCaptcha
Zend_Service_Simpy
導入
Zend_Service_StrikeIron
Zend_Service_StrikeIron: バンドルされているサービス
Zend_Service_StrikeIron: 応用編
Zend_Service_Technorati
Zend_Service_Twitter
Zend_Service_Yahoo
Zend_Session
導入
基本的な使用法
高度な使用法
グローバルセッションの管理
Zend_Session_SaveHandler_DbTable
Zend_Soap
Zend_Soap_Server
Zend_Soap_Client
WSDLアクセッサ
自動検出
Zend_Tag
Introduction
Zend_Tag_Cloud
Zend_Test
導入
Zend_Test_PHPUnit
Zend_Text
Zend_Text_Figlet
Zend_Text_Table
Zend_TimeSync
導入
Zend_TimeSync の動作
Zend_Tool_Framework
Introduction
Using the CLI Tool
Architecture
Creating Providers to use with Zend_Tool_Framework
Shipped System Providers
Zend_Tool_Project
Zend_Tool_Project導入
Create A Project
Zend Tool Project Providers
Zend_Translate
導入
Zend_Translate のアダプタ
翻訳アダプタの使用法
以前のバージョンからの移行
Zend_Uri
Zend_Uri
Zend_Validate
導入
標準のバリデーションクラス群
バリデータチェイン
バリデータの書き方
検証メッセージ
Zend_Version
Zend Framework のバージョンの取得
Zend_View
導入
コントローラスクリプト
ビュースクリプト
ビューヘルパー
Zend_View_Abstract
以前のバージョンからの移行
Zend_Wildfire
Zend_Wildfire
Zend_XmlRpc
導入
Zend_XmlRpc_Client
Zend_XmlRpc_Server
Zend Framework のシステム要件
導入
Zend Framework PHP 標準コーディング規約
概要
PHP ファイルの書式
命名規約
コーディングスタイル
Zend Framework Performance Guide
導入
クラスの読み込み
Zend_Dbパフォーマンス
国際化(i18n)とローカライズ(l10n)
ビューのレンダリング
著作権に関する情報