Previous Next

Créer des index

Créer un nouvel index

La création et la mise à jour des index sont implémentées dans le composant Zend_Search_Lucene, ainsi que dans le projet Java Lucene. Vous pouvez utiliser l'une ou l'autre de ces options pour créer des index dans lesquels Zend_Search_Lucene pourra chercher.

Le listing ci-dessous donne un exemple d'indexation d'un fichier en utilisant l'API d'indexation de Zend_Search_Lucene :

// Création de l'index
$index = Zend_Search_Lucene::create('/data/my-index');

$doc = new Zend_Search_Lucene_Document();

// Stockage de l'URL du document afin de pouvoir l'identifier dans les résultats de recherche
$doc->addField(Zend_Search_Lucene_Field::Text('url', $docUrl));

// Indexation des contenus du document
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $docContent));

// Ajout du document à l'index
$index->addDocument($doc);

Les documents nouvellement ajoutés sont immédiatement recherchables dans l'index.

Mettre à jour un index

La même procédure est utilisée pour mettre à jour un index existant. La seule différence est l'appel de la méthode open() à la place de create().

// Ouverture d'un index existant
$index = Zend_Search_Lucene::open('/data/my-index');

$doc = new Zend_Search_Lucene_Document();
// Stockage de l'URL du document afin de pouvoir l'identifier dans les résultats de recherche
$doc->addField(Zend_Search_Lucene_Field::Text('url', $docUrl));
// Indexation des contenus du document
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
                                                  $docContent));

// Ajout du document à l'index
$index->addDocument($doc);

Mise à jour de Documents

Le format de fichier d'un index Lucene ne permet pas la mise à jour d'un document. Les documents doivent être supprimés puis réinsérés dans l'index afin d'être mis à jour efficacement.

La méthode Zend_Search_Lucene::delete() utilise un identifiant interne de document. Cet identifiant peut être récupéré dans une requête en demandant la propriété 'id' :

$removePath = ...;
$hits = $index->find('path:' . $removePath);
foreach ($hits as $hit) {
    $index->delete($hit->id);
}

Récupération de la taille de l'index

Il existe deux méthodes pour récupérer la taille d'un index dans Zend_Search_Lucene.

La méthode Zend_Search_Lucene::maxDoc() retourne un de plus que le plus grand nombre possible de documents. Il s'agit en fait du nombre total de documents dans l'index, y compris les documents supprimés. Cette méthode a une méthode synonyme : Zend_Search_Lucene::count().

La méthode Zend_Search_Lucene::numDocs() retourne le nombre total de documents non supprimés.

$indexSize = $index->count();
$documents = $index->numDocs();

La méthode Zend_Search_Lucene::isDeleted($id) peut être utilisée pour vérifier si un document a été supprimé.

for ($count = 0; $count < $index->maxDoc(); $count++) {
    if ($index->isDeleted($count)) {
        echo "Le document #$id a été supprimé.\n";
    }
}

L'optimisation d'index retire les documents supprimés et resserre les identifiants de documents dans un intervalle plus petit. Ainsi, un identifiant interne de document peut être modifié durant l'optimisation de l'index.

Optimisation d'index

Un index Lucene est composé de plusieurs segments. Chaque segment est un ensemble de données complètement indépendant des autres.

Les fichiers de segment d'index Lucene ne peuvent pas être mis à jour conceptuellement. Une mise à jour de segment requiert une réorganisation complète de tous les segments. Consultez les formats de fichiers d'index pour plus de détails (» http://lucene.apache.org/java/2_3_0/fileformats.html) [1] Les nouveaux documents sont ajoutés à l'index en créant de nouveaux segments.

L'augmentation du nombre de segments réduit la qualité de l'index, mais l'optimisation de l'index remédie à ce problème. L'optimisation a pour principale activité de fusionner plusieurs segments en un seul. Ce processus ne met pas à jour les segments. Il génère un nouveau segment plus gros et met à jour la liste des segments ('segments' file).

L'optimisation complète de l'index peut être déclenchée en appelant la méthode Zend_Search_Lucene::optimize(). Elle va fusionner tous les segments de l'index en un seul nouveau segment :

// Ouverture d'un index existant.
$index = Zend_Search_Lucene::open('/data/my-index');

// Optimisation de l'index.
$index->optimize();

L'optimisation automatique de l'index est lancée pour garder les index dans un état cohérent.

L'optimisation automatique est un processus itératif géré par plusieurs options d'index. Il s'agit de fusionner les très petits segments pour obtenir de plus gros segments, puis de fusionner ces segments obtenus vers des segments encore plus gros et ainsi de suite.

Option d'optimisation automatique MaxBufferedDocs

MaxBufferedDocs correspond au nombre minimum de documents requis avant que les documents présents en mémoire dans le buffer soit écris dans un nouveau segment.

MaxBufferedDocs peut être récupéré ou défini en appelant $index->getMaxBufferedDocs() ou $index->setMaxBufferedDocs($maxBufferedDocs).

Sa valeur par défaut est 10.

Option d'optimisation automatique MaxMergeDocs

MaxMergeDocs correspond à un nombre maximal de documents fusionnés via addDocument(). Des petites valeurs (p. ex., moins de 10'000) sont préférables pour de l'indexation interactive, du fait que cela limite les pauses durant l'indexation à quelques secondes. Des valeurs plus grandes sont meilleures pour les indexations en tâches planifiées (batch) et des recherches plus rapides.

MaxMergeDocs peut être récupéré ou défini en appelant $index->getMaxMergeDocs() ou $index->setMaxMergeDocs($maxMergeDocs).

Sa valeur par défaut est PHP_INT_MAX.

Option d'optimisation automatique MergeFactor

MergeFactor détermine à quelle fréquence les segments d'index sont fusionnés par addDocument(). Avec des petites valeurs, on utilise moins de RAM durant l'indexation et les recherche sur des index non optimisés sont plus rapides, mais la vitesse d'indexation est plus lente. Avec des valeurs plus grandes, on utilise plus de RAM durant l'indexation, et tandis que les recherches sur les index non optimisés sont plus lentes, l'indexation est plus rapide. Au final, les grandes valeurs (> 10) sont préférables pour les indexations planifiées (batch), et les valeurs plus petites (< 10) pour les index qui sont maintenus de manière interactives.

L'option MergeFactor constitue une bonne estimation pour le nombre moyen de segments fusionnés par une passe d'auto-optimisation. Des valeurs trop grandes produisent un nombre trop important de segments car ils ne sont pas fusionnés. Cela peut causer l'erreur "failed to open stream: Too many open files". Cette limitation est dépendante du système.

MergeFactor peut être récupéré ou défini par les méthodes $index->getMergeFactor() ou $index->setMergeFactor($mergeFactor).

Sa valeur par défaut est 10.

Lucene Java et Luke (Lucene Index Toolbox - » http://www.getopt.org/luke/) peuvent aussi être utilisés pour optimiser un index. La dernière version de Luke (v0.8) est basée sur Lucene v2.3 et est compatible avec l'implémentation courante du composant Zend_Search_Lucene (ZF 1.6). Les versions précédentes de Zend_Search_Lucene nécessitent d'autres versions des outils de Java Lucene :

  • ZF 1.5 - Java Lucene 2.1 (Luke tool v0.7.1 - http://www.getopt.org/luke/luke-0.7.1/)

  • ZF 1.0 - Java Lucene 1.4 - 2.1 (Luke tool v0.6 - http://www.getopt.org/luke/luke-0.6/)

Permissions

Par défaut, les fichiers d'index sont disponibles en lecture et écriture par tout le monde.

Il est possible de surcharger ce comportement grâce à la méthode Zend_Search_Lucene_Storage_Directory_Filesystem::setDefaultFilePermissions() :

// Récupération des permissions par défaut
$currentPermissions =
    Zend_Search_Lucene_Storage_Directory_Filesystem::getDefaultFilePermissions();

// Donne la permission lecture-écriture uniquement à l'utilisateur et au groupe courant.
Zend_Search_Lucene_Storage_Directory_Filesystem::setDefaultFilePermissions(0660);

Limitations

Taille de l'index

La taille de l'index est limité à 2GB sur les plate-formes 32 bits.

Utilisez des plate-formes 64 bits pour des index plus gros.

Systèmes de fichiers supportés

Zend_Search_Lucene utilise flock() pour fournir des recherches concurrentes, la mise à jour des index et l'optimisation.

Selon la » documentation PHP, " flock() ne fonctionnera pas sur NFS et plusieurs autres systèmes de fichiers en réseaux".

N'utilisez pas de systèmes de fichiers en réseaux avec Zend_Search_Lucene.

[1] Le format de fichier d'index supporté actuellement est la version 2.3 (depuis Zend Framework 1.6).
Previous Next
Introduction au Zend Framework
Présentation
Installation
Apprendre Zend Framework
Démarrez rapidement avec Zend Framework
Zend Framework & MVC Introduction
Create Your Project
Create A Layout
Create a Model and Database Table
Create A Form
Congratulations!
Chargement automatique avec Zend Framework
Introduction
Architecture et buts
Utilisation de base de l'autoloader
Auto-chargement de resources
Conclusion
Les plugins dans Zend Framework
Introduction
Utiliser des Plugins
Conclusion
Bien démarrer avec Zend_Layout
Introduction
Utiliser Zend_Layout
Zend_Layout: Conclusions
Bien démarrer avec Zend_View
Introduction
Basic Placeholder Usage
Standard Placeholders
View Placeholders: Conclusion
Bien comprendre et utiliser les décorateurs Zend Form
Introduction
Les bases des décorateurs
Chainer les décorateurs
Rendu individuel des décorateurs
Créer et rendre des éléments composites
Conclusion
Bien démarrer avec Zend_Session, Zend_Auth, et Zend_Acl
Fabrique une application Multi-Utilisateurs avec Zend Framework
Gérer les sessions dans ZF
Authentification d'utilisateurs dans Zend Framework
Fabriquer un système de gestion d'autorisations avec Zend Framework
Bien démarrer avec Zend_Search_Lucene
Introduction à Zend_Search_Lucene
Structure d'index Lucene
Ouverture et création d'index
Indexation
Recherche
Requêtes supportées
Pagination de résultat de recherche
Bien démarrer avec Zend_Paginator
Introduction
Exemples simples
Contrôles de la pagination et styles de défilement
Assembler le tout
Guide de référence Zend Framework
Zend_Acl
Introduction
Affiner les Contrôles d'Accès
Utilisation avancée
Zend_Amf
Introduction
Zend_Amf_Server
Zend_Application
Introduction
Zend_Application démarrage rapide
Théorie générale
Exemples
Fonctionnalités principales
Plugins de ressources disponibles
Zend_Auth
Introduction
Authentification avec une table de base de données
Authentification "Digest"
Adaptateur d'authentification HTTP
LDAP Authentication
Authentification OpenID
Zend_Barcode
Introduction
Création de code-barres avec la classe Zend_Barcode
Zend_Barcode Objects
Zend_Barcode Renderers
Zend_Cache
Introduction
Aspect théorique
Les frontends Zend_Cache
Les backends Zend_Cache
Le gestionnaire de Cache
Zend_Captcha
Introduction
Opération Captcha
Adaptateurs CAPTCHA
Zend_CodeGenerator
Introduction
Exemples Zend_CodeGenerator
Zend_CodeGenerator Réference
Zend_Config
Introduction
Aspect théorique
Zend_Config_Ini
Zend_Config_Xml
Zend_Config_Writer
Zend_Config_Writer
Zend_Console_Getopt
Introduction
Déclarer les règles Getopt
Extraire les options et les arguments
Configurer Zend_Console_Getopt
Zend_Controller
Zend_Controller - Démarrage rapide
Fondations de Zend_Controller
Le contrôleur frontal (Front Controller)
L'objet Requête
Routeur Standard
Le distributeur
Contrôleurs d'action
Aides d'action (Helper)
Objet de réponse
Plugins
Utilisation de conventions de dossiers modulaires
Exceptions avec MVC
Zend_Currency
Introduction à Zend_Currency
Utiliser Zend_Currency
Options des monnaies
Qu'est ce qui définit une monnaie?
Où est le symbole monnétaire?
A quoi ressemble une monnaie?
Travailler avec les valeurs des monnaies (les montants)
Calculs avec les monnaies
Echanger (convertir) des monnaies
Informations complémentaires pour Zend_Currency
Zend_Date
Introduction
Aspect théorique
Méthodes de base
Zend_Date API Overview
Créer des dates
Constants for General Date Functions
Exemples concrets
Zend_Db
Zend_Db_Adapter
Zend_Db_Statement
Zend_Db_Profiler
Zend_Db_Select
Zend_Db_Table
Zend_Db_Table_Row
Zend_Db_Table_Rowset
Relations Zend_Db_Table
Zend_Db_Table_Definition
Zend_Debug
Afficher des informations
Zend_Dojo
Introduction
Zend_Dojo_Data: dojo.data Envelopes
Les aides de vues Dojo
Les éléments de formulaire et les décorateurs Dojo
Zend_Dojo build layer support
Zend_Dom
Introduction
Zend_Dom_Query
Zend_Exception
Utiliser les exceptions
Utilisation classique
Exceptions précédentes
Zend_Feed
Introduction
Importer des flux
Obtenir des flux à partir de pages Web
Consommer un flux RSS
Consommer un flux Atom
Consommer une entrée Atom particulière
Modifier la structure du flux ou des entrées
Classes personnalisées pour les flux et entrées
Zend_Feed_Reader
Zend_Feed_Writer
Zend_Feed_Pubsubhubbub
Zend_File
Zend_File_Transfer
Validateurs pour Zend_File_Transfer
Filtres pour Zend_File_Transfer
Zend_Filter
Introduction
Classes de filtre standards
Chaînes de filtrage
Écriture de filtres
Zend_Filter_Input
Zend_Filter_Inflector
Zend_Form
Zend_Form
Zend_Form démarrage rapide
Creating Form Elements Using Zend_Form_Element
Creating Forms Using Zend_Form
Créer un visuel personnalisé en utilisant Zend_Form_Decorator
Standard Form Elements Shipped With Zend Framework
Décorateurs standards fournis avec Zend Framework
Internationaliser un formulaire Zend_Form
Advanced Zend_Form Usage
Zend_Gdata
Introduction
Authentification par procédé AuthSub
Using the Book Search Data API
Authentification avec ClientLogin
Using Google Calendar
Using Google Documents List Data API
Using Google Health
Using Google Spreadsheets
Using Google Apps Provisioning
Using Google Base
Utilisation des albums Web Picasa
Using the YouTube Data API
Attraper les exceptions Gdata
Zend_Http
Introduction
Zend_Http_Client - Utilisation avancée
Zend_Http_Client - Adaptateurs de connexion
Zend_Http_Cookie and Zend_Http_CookieJar
Zend_Http_Response
Zend_InfoCard
Introduction
Zend_Json
Introduction
Utilisation de base
Utilisation avancée de Zend_Json
XML to JSON conversion
Zend_Json_Server - JSON-RPC server
Zend_Layout
Introduction
Zend_Layout - Démarrage rapide
Zend_Layout options de configuration
Zend_Layout, utilisation avancée
Zend_Ldap
Introduction
API overview
Scénarios d'utilisation
Outils
Accès à l'arbre LDAP de manière orientée objet avec Zend_Ldap_Node
Récupérer des informations depuis un serveur LDAP
Serialiser des données LDAP depuis/vers LDIF
Zend_Loader
Charger les fichiers et les classes dynamiquement
L'autoloader
Autoloaders de ressources
Chargeur de Plugins
Zend_Locale
Introduction
Using Zend_Locale
Normalization and Localization
Working with Dates and Times
Supported locales
Zend_Log
Présentation
Rédacteurs (Writers)
Formateurs (mise en forme)
Filtres
Utiliser la fabrique pour créer des logs
Zend_Mail
Introduction
Envoyer des émail en utilisant SMTP
Envoyer plusieurs émail par connexion SMTP
Utiliser différents transports
Émail HTML
Fichiers joints
Ajouter des destinataires
Contrôler les limites MIME
En-têtes additionnels
Jeux de caractères
Encodage
Authentification SMTP
Sécuriser les transports SMTP
Lire des émail
Zend_Markup
Introduction
Guide de démarrage avec Zend_Markup
Analyseurs Zend_Markup (parsers)
Moteurs de rendu Zend_Markup
Zend_Measure
Introduction
Création d'une mesure
Récupérer des mesures
Manipuler des mesures
Types de mesures
Zend_Memory
Présentation
Manager de mémoire
Objet mémoire
Zend_Mime
Zend_Mime
Zend_Mime_Message
Zend_Mime_Part
Zend_Navigation
Introduction
Pages
Containers
Zend_Oauth
Introduction to OAuth
Zend_OpenId
Introduction
Zend_OpenId_Consumer Basics
Zend_OpenId_Provider
Zend_Paginator
Introduction
Utilisation
Configuration
Utilisation avancée
Zend_Pdf
Introduction
Créer et charger des documents PDF
Sauvegarder les changement dans un document PDF
Les pages d'un document
Dessiner
Interactive Features
Informations du document et métadonnées
Exemple d'utilisation du module Zend_Pdf
Zend_ProgressBar
Zend_ProgressBar
Zend_Queue
Introduction
Example usage
Framework
Adapters
Customizing Zend_Queue
Stomp
Zend_Reflection
Introduction
Zend_Reflection Exemples
Réference de Zend_Reflection
Zend_Registry
Utiliser le registre
Zend_Rest
Introduction
Zend_Rest_Client
Zend_Rest_Server
Zend_Search_Lucene
Vue d'ensemble
Créer des index
Chercher dans un index
Langage de requêtes
API de construction de requêtes
Jeu de caractères
Extensibilité
Agir avec Lucene Java
Avancé
Bonnes pratiques
Zend_Serializer
Introduction
Zend_Serializer_Adapter
Zend_Server
Introduction
Zend_Server_Reflection
Zend_Service
Introduction
Zend_Service_Akismet
Zend_Service_Amazon
Zend_Service_Amazon_Ec2
Zend_Service_Amazon_Ec2: Instances
Zend_Service_Amazon_Ec2: Windows Instances
Zend_Service_Amazon_Ec2: Reserved Instances
Zend_Service_Amazon_Ec2: CloudWatch Monitoring
Zend_Service_Amazon_Ec2: Amazon Machine Images (AMI)
Zend_Service_Amazon_Ec2: Elastic Block Storage (EBS)
Zend_Service_Amazon_Ec2: Elastic IP Addresses
Zend_Service_Amazon_Ec2: Keypairs
Zend_Service_Amazon_Ec2: Regions and Availability Zones
Zend_Service_Amazon_Ec2: Security Groups
Zend_Service_Amazon_S3
Zend_Service_Amazon_Sqs
Zend_Service_Audioscrobbler
Zend_Service_Delicious
Zend_Service_DeveloperGarden
Zend_Service_Flickr
Zend_Service_LiveDocx
Zend_Service_Nirvanix
Zend_Service_ReCaptcha
Zend_Service_Simpy
Zend_Service_SlideShare
Zend_Service_StrikeIron
Zend_Service_StrikeIron: Bundled Services
Zend_Service_StrikeIron: Advanced Uses
Zend_Service_Technorati
Zend_Service_Twitter
Zend_Service_WindowsAzure
Zend_Service_Yahoo
Zend_Session
Introduction
Usage basique
Utilisation avancée
Gestion générale de la session
Zend_Session_SaveHandler_DbTable
Zend_Soap
Zend_Soap_Server
Zend_Soap_Client
WSDL
Auto découverte
Zend_Tag
Introduction
Zend_Tag_Cloud
Zend_Test
Introduction
Zend_Test_PHPUnit
Zend_Test_PHPUnit_Db
Zend_Text
Zend_Text_Figlet
Zend_Text_Table
Zend_TimeSync
Introduction
Utiliser Zend_TimeSync
Zend_Tool
Using Zend_Tool On The Command Line
Extending Zend_Tool
Zend_Tool_Framework
Introduction
Using the CLI Tool
Architecture
Creating Providers to use with Zend_Tool_Framework
Shipped System Providers
Extending and Configuring Zend_Tool_Framework
Zend_Tool_Project
Introduction
Créer un projet
Fournisseurs de Zend_Tool_Project
Rouages internes de Zend_Tool_Project
Zend_Translate
Introduction
Adaptateurs pour Zend_Translate
Utiliser les adaptateurs de traduction
Creating source files
Additional features for translation
Notation des pluriels pour Translation
Zend_Uri
Zend_Uri
Zend_Validate
Introduction
Classes de validation standard
Chaînes de validation
Écrire des validateurs
Messages de validation
Zend_Version
Lire la version de Zend Framework
Zend_View
Introduction
Scripts de contrôleur
Scripts de vue
Aides de vue
Zend_View_Abstract
Zend_Wildfire
Zend_Wildfire
Zend_XmlRpc
Introduction
Zend_XmlRpc_Client
Zend_XmlRpc_Server
ZendX_Console_Process_Unix
ZendX_Console_Process_Unix
ZendX_JQuery
Introduction
ZendX_JQuery View Helpers
ZendX_JQuery Form Elements and Decorators
Configuration système requise par Zend Framework
Introduction
Notes de migration de Zend Framework
Zend Framework 1.10
Zend Framework 1.9
Zend Framework 1.8
Zend Framework 1.7
Zend Framework 1.6
Zend Framework 1.5
Zend Framework 1.0
Zend Framework 0.9
Zend Framework 0.8
Zend Framework 0.6
Convention de codage PHP de Zend Framework
Vue d'ensemble
Formatage des fichiers PHP
Conventions de nommage
Style de codage
Zend Framework Documentation Standard
Overview
Documentation File Formatting
Recommendations
Recommended Project Structure for Zend Framework MVC Applications
Overview
Recommended Project Directory Structure
Module Structure
Rewrite Configuration Guide
Guide de performance Zend Framework
Introduction
Chargement des classes
Performance de Zend_Db
Internationalisation (i18n) and Localisation (l10n)
View Rendering
Informations de copyright