Previous Next

Indexerstellung

Einen neuen Index erstellen

Die Funktionen für das Erstellen und Aktualisieren eines Index wurden innerhalb der Zend_Search_Lucene Komponente implementiert genau wie im Java Lucene Projekt. Man kann beide dieser Optionen verwenden um einen Index zu erstellen der mit Zend_Search_Lucene durchsucht werden kann.

Der PHP Quellcode unten zeigt ein Beispiel, wie eine Datei durch Verwendung der Zend_Search_Lucene API indiziert werden kann:

// Index erstellen
$index = Zend_Search_Lucene::create('/data/my-index');

$doc = new Zend_Search_Lucene_Document();

// Speichere die URL des Dokuments,
// um sie in Suchergebnissen ermitteln zu können
$doc->addField(Zend_Search_Lucene_Field::Text('url', $docUrl));

// Inhalte des Dokumentenindex
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $docContent));

// Füge das Dokument dem Index hinzu
$index->addDocument($doc);

Neu hinzugefügte Dokumente können sofort im Index gesucht werden.

Indexaktualisierung

Der selbe Prozess wird verwendet, um einen vorhandenen Index zu aktualisieren. Der einzige Unterschied ist, dass die open() Methode statt der create() Methode aufgerufen wird:

// Öffnen einen vorhandenen Index
$index = Zend_Search_Lucene::open('/data/my-index');

$doc = new Zend_Search_Lucene_Document();

// Speichere die URL des Dokuments, um es für Suchergebnisse ermitteln zu können
$doc->addField(Zend_Search_Lucene_Field::Text('url', $docUrl));

// Indiziere den Dokumenteninhalt
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
                                                  $docContent));

// Füge das Dokument dem Index hinzu
$index->addDocument($doc);

Dokumente aktualisieren

Das Lucene Indexdateiformat unterstützt keine Aktualisierung von Dokumenten. Ein Dokument sollte entfernt und wieder hinzugefügt werden um es effektiv zu Aktualisieren.

Die Zend_Search_Lucene::delete() Methode arbeitet mit einer internen Index Dokumentennummer. Sie kann aus dem Ergebnistreffer über die 'id' Eigenschaft erhalten werden:

$removePath = ...;
$hits = $index->find('path:' . $removePath);
foreach ($hits as $hit) {
    $index->delete($hit->id);
}

Die Größe des Index erhalten

Es gibt zwei Methoden um die Größe eines Index in Zend_Search_Lucene zu erhalten.

Zend_Search_Lucene::maxDoc() gibt einen Mehr als die größte Anzahl an Dokumenten zurück. Das ist die Gesamtanzahl der Dokumente im Index inklusive gelöschter Dokumente. Deswegen hat es das Synonym: Zend_Search_Lucene::count().

Zend_Search_Lucene::numDocs() gibt die Gesamtanzahl an nicht gelöschten Dokumenten zurück.

$indexSize = $index->count();
$documents = $index->numDocs();

Die Methode Zend_Search_Lucene::isDeleted($id) kann verwendet werden um zu Prüfen ob ein Dokument gelöscht ist.

for ($count = 0; $count < $index->maxDoc(); $count++) {
    if ($index->isDeleted($count)) {
        echo "Dokument #$id ist gelöscht.\n";
    }
}

Index Optimierung entfernt gelöschte Dokumente und quetscht die Dokument Ids in einen kleineren Bereich. Die interne Id des Dokuments könnte also wärend der Indexoptinierung verändert werden.

Indexoptimierung

Ein Lucene Index besteht aus Segmenten. Jedes Segment ist ein komplett unabhängiges Set von Daten.

Lucene Indexsegmentdateien können aufgrund ihres Designs nicht aktualisiert werden. Eine Segmentaktualisierung benötigt eine komplette Reorganisation der Segmente. Siehe auch die Lucene Indexdateiformate für weitere Details (» http://lucene.apache.org/java/docs/fileformats.html). [1] . Neue Dokumente werden durch Erstellen neuer Segmente zum Index hinzugefügt.

Eine steigende Anzahl an Segmente verringert die Qualität des Index, aber die Indexoptimierung stellt diese wieder her. Die Optimierung verschiebt verschiedene Segmente in ein neues. Dieser Prozess aktualisiert die Segmente auch nicht. Es erzeugt ein neues großes Segment und aktualisiert die Segmentliste (die 'sements' Datei).

Eine komplette Indexoptimierung kann durch einen Aufruf von Zend_Search_Lucene::optimize() getriggert werden. Sie fügt alle Segmente in ein größeres zusammen.

// Öffne bestehenden Index
$index = new Zend_Search_Lucene('/data/my-index');

// Optimiere Index
$index->optimize();

Die automatische Indexoptimierung wird durchgeführt, um einen Index in einem konsistenten Status zu halten.

Die automatische Indexoptimierung ist ein schrittweise Prozess, der durch verschiedene Indexoptionen gesteuert wird. Sie fasst sehr kleine Segmente in größere zusammen und fasst die größeren Segmente dann in noch größere zusammen und so weiter.

MaxBufferedDocs Option für automatische Optimierung

MaxBufferedDocs ist die minimale Anzahl an Dokumenten, die erforderlich ist, damit die im Hauptspeicher zwischen gespeicherten Dokumente in ein neues Segment geschrieben werden.

MaxBufferedDocs kann abgefragt bzw. gesetzt werden durch Aufrufe von $index->getMaxBufferedDocs() oder $index->setMaxBufferedDocs($maxBufferedDocs).

Standardwert is 10.

MaxMergeDocs Option für automatische Optimierung

MaxMergeDocs ist die höchste Anzahl an Dokumenten, die jemals mit addDocument() zusammengefasst werden kann. Kleine Werte (z.B. unter 10.000) sind für die interaktive Indizierung am besten, da dies die Pausen für das Indizieren auf wenige Sekunden begrenzen. Größere Werte sind am besten für Stapelverarbeitung oder schnellere Suchabfragen.

MaxMergeDocs kann abgefragt bzw. gesetzt werden durch Aufrufe von $index->getMaxMergeDocs() oder $index->setMaxMergeDocs($maxMergeDocs).

Standardwert ist PHP_INT_MAX.

MergeFactor Option für automatische Optimierung

MergeFactor legt fest, wie oft Segmentenindixes durch addDocument() zusammengefasst werden sollen. Bei kleineren Werten wird beim Indizieren weniger RAM verbraucht und Suchabfragen auf nicht optimierte Indizes sind schneller, aber die Indizierungsgeschwindigkeit ist langsamer. Bei größeren Werten, wird mehr beim Indizieren RAM verbraucht und während Suchabfragen auf nicht optimierte Indizes langsamer sind, ist das Indizieren schneller. Deshalb sind größere Werte (> 10) am besten für Stapelverarbeitung und kleinere Werte (< 10) sind besser für Indizes, die interaktiv gepflegt werden.

MergeFactor ist eine gute Annahme für die durchschnittliche Anzahl an Segmenten die durch einen Auto-Optimierungs Durchgang zusammengeführt werden. Zu große Werte produzieren eine große Anzahl an Segmenten wärend diese nicht in einen neuen zusammengeführt werden. Das kann eine "failed to open stream: Too many open files" Fehlernachricht sein. Diese Begrenzung ist Sytemabhängig.

MergeFactor kann abgefragt bzw. gesetzt werden durch Aufrufe von $index->getMergeFactor() oder $index->setMergeFactor($mergeFactor).

Standardwert ist 10.

Lucene Java und Luke (Lucene Index Toolbox - » http://www.getopt.org/luke/) können auch für die Optimierung eines Index verwendet werden. Das letzte Luke Relese (v0.8) basiert auf Lucene v2.3 und ist kompatibel mit den aktuellen Implementation der Zend_Search_Lucene Komponente (ZF 1.6). Frühere Versionen der Zend_Search_Lucene Implementation benötigen andere Versionen des Java Lucene Tools um kompatibel zu sein:

  • ZF 1.5 - Java Lucene 2.1 (Luke Tool v0.7.1 - http://www.getopt.org/luke/luke-0.7.1/)

  • ZF 1.0 - Java Lucene 1.4 - 2.1 (Luke Tool v0.6 - http://www.getopt.org/luke/luke-0.6/)

Berechtigungen

Index Dateien sind standardmäßig für jeden lesbar und beschreibbar.

Es ist möglich das mit der Zend_Search_Lucene_Storage_Directory_Filesystem::setDefaultFilePermissions() Methode zu überschreiben.

// Die aktuelle Datei Berechtigung erhalten
$currentPermissions =
    Zend_Search_Lucene_Storage_Directory_Filesystem::getDefaultFilePermissions();

// Nur für aktuellen Benutzer und Gruppe die Lese-Schreib Berechtigung setzen
Zend_Search_Lucene_Storage_Directory_Filesystem::setDefaultFilePermissions(0660);

Einschränkungen

Indexgröße

Die Indexgröße ist limitiert mit 2GB für 32-bit Platformen.

Verwende 64-bit Platformen für größere Indezes.

Unterstützte Dateisysteme

Zend_Search_Lucene verwendet flock() um gleichzeitiges Suchen, Updaten und Optimierung des Index zu unterstützen.

Entsprechend der PHP » Dokumentation, "funktioniert flock() nicht auf NFS und vielen anderen Netzwerk Dateisystemen".

Verwende keine Netzwerk Dateisysteme mit Zend_Search_Lucene.

[1] Die aktuell unterstützte Version des Lucene Index File Formats ist 2.3 (beginnend mit ZF 1.6).
Previous Next
Introduction to Zend Framework
Übersicht
Installation
Zend_Acl
Einführung
Verfeinern der Zugriffskontrolle
Fortgeschrittene Verwendung
Zend_Amf
Einführung
Zend_Amf_Server
Zend_Application
Einführung
Zend_Application Quick Start
Theorie der Funktionsweise
Beispiele
Kern Funktionalität
Vorhandene Ressource Plugins
Zend_Auth
Einführung
Datenbanktabellen Authentifizierung
Digest Authentication
HTTP Authentication Adapter
LDAP Authentifizierung
Open ID Authentifikation
Zend_Cache
Einführung
Die Theorie des Cachens
Zend_Cache Frontends
Zend_Cache Backends
Zend_Captcha
Einführung
Captcha Anwendung
CAPTCHA Adapter
Zend_CodeGenerator
Einführung
Zend_CodeGenerator Beispiele
Zend_CodeGenerator Referenz
Zend_Config
Einleitung
Theory of Operation
Zend_Config_Ini
Zend_Config_Xml
Zend_Config_Writer
Zend_Config_Writer
Zend_Console_Getopt
Einführung
Definieren von Getopt Regeln
Holen von Optionen und Argumenten
Konfigurieren von Zend_Console_Getopt
Zend_Controller
Zend_Controller Schnellstart
Zend_Controller Grundlagen
Der Front Controller
Das Request Objekt
Der Standard Router
Der Dispatcher
Action Kontroller
Action Helfer
Das Response Objekt
Plugins
Eine konventionelle modulare Verzeichnis Struktur verwenden
MVC Ausnahmen
Migration von vorhergehenden Versionen
Zend_Currency
Einführung in Zend_Currency
Arbeiten mit Währungen
Migration von vorhergehenden Versionen
Zend_Date
Einführung
Theorie der Arbeitsweise
Basis Methoden
Zend_Date API Übersicht
Erstellen von Datumswerten
Konstanten für generelle Datums Funktionen
Funktionierende Beispiele
Zend_Db
Zend_Db_Adapter
Zend_Db_Statement
Zend_Db_Profiler
Zend_Db_Select
Zend_Db_Table
Zend_Db_Table_Row
Zend_Db_Table_Rowset
Zend_Db_Table Relationships
Zend_Debug
Variablen ausgeben
Zend_Dojo
Einführung
Zend_Dojo_Data: dojo.data Envelopes
Dojo View Helfer
Formular Elemente und Dekoratore für Dojo
Zend_Dom
Einführung
Zend_Dom_Query
Zend_Exception
Verwenden von Ausnahmen
Zend_Feed
Einführung
Feeds importieren
Feeds von Websites abrufen
Einen RSS Feed konsumieren
Einen Atom Feed konsumieren
Einen einzelnen Atom Eintrag konsumieren
Verändern der Feed- und Eintragsstruktur
Eigene Klassen für Feeds und Einträge
Zend_File
Zend_File_Transfer
Prüfungen für Zend_File_Transfer
Filter für Zend_File_Transfer
Migration von vorhergehenden Versionen
Zend_Filter
Einführung
Standard Filter Klassen
Filter Ketten
Filter schreiben
Zend_Filter_Input
Zend_Filter_Inflector
Zend_Form
Zend_Form
Schnellstart mit Zend_Form
Erstellen von Form Elementen mit Hilfe von Zend_Form_Element
Erstellen von Form durch Verwendung von Zend_Form
Erstellen von eigenem Form Markup durch Zend_Form_Decorator
Standard Form Elemente die mit dem With Zend Framework ausgeliefert werden
Standard Formular Dekoratoren die mit dem Zend Framework ausgeliefert werden
Internationalisierung von Zend_Form
Fortgeschrittene Verwendung von Zend_Form
Zend_Gdata
Einführung
Authentifizierung mit AuthSub
Die Buchsuche Daten API verwenden
Authentifizieren mit ClientLogin
Google Kalender verwenden
Verwenden der Google Dokumente Listen Daten API
Verwenden von Google Health
Google Tabellenkalkulation verwenden
Google Apps Provisionierung verwenden
Google Base verwenden
Picasa Web Alben verwenden
Verwenden der YouTube Daten API
Gdata Ausnahmen auffangen
Zend_Http
Einführung
Zend_Http_Client - Fortgeschrittende Nutzung
Zend_Http_Client - Verbindungsadapter
Zend_Http_Cookie und Zend_Http_CookieJar
Zend_Http_Response
Zend_InfoCard
Einführung
Zend_Json
Einführung
Grundlegende Verwendung
Fortgeschrittene Verwendung von Zend_Json
XML zu JSON Konvertierung
Zend_Json_Server - JSON-RPC server
Zend_Layout
Einführung
Zend_Layout Schnellstart
Zend_Layout Konfigurations Optionen
Erweiterte Verwendung von Zend_Layout
Zend_Ldap
Einleitung
Zend_Loader
Dynamisches Laden von Dateien und Klassen
Der Autoloader
Ressource Autoloader
Plugins laden
Zend_Locale
Einführung
Zend_Locale verwenden
Normalisierung und Lokalisierung
Arbeiten mit Daten und Zeiten
Unterstützte Gebietsschemata
Migrieren von vorhergehenden Versionen
Zend_Log
Übersicht
Writer
Formatter
Filter
Zend_Mail
Einführung
Versand über SMTP
Versand von mehreren E-Mails über eine SMTP Verbindung
Verwendung von unterschiedlichen Versandwegen
HTML E-Mail
Anhänge
Empfänger hinzufügen
Die MIME Abgrenzung kontrollieren
Zusätzliche Kopfzeilen
Zeichensätze
Kodierung
SMTP Authentifizierung
SMTP Übertragungen sichern
Lesen von Mail Nachrichten
Zend_Measure
Einführung
Erstellung einer Maßeinheit
Ausgabe von Maßeinheiten
Manipulation von Maßeinheiten
Arten von Maßeinheiten
Zend_Memory
Übersicht
Memory Manager
Memory Objekte
Zend_Mime
Zend_Mime
Zend_Mime_Message
Zend_Mime_Part
Zend_Navigation
Einführung
Seiten
Container
Zend_OpenId
Einführung
Zend_OpenId_Consumer Grundlagen
Zend_OpenId_Provider
Zend_Paginator
Einführung
Verwendung
Konfiguration
Advanced usage
Zend_Pdf
Einführung
Erstellen und Laden von PDF Dokumenten
Änderungen an PDF Dokumenten speichern
Arbeiten mit Seiten
Zeichnen
Dokument Informationen und Metadaten
Anwendungsbeispiel für die Zend_Pdf Komponente
Zend_ProgressBar
Zend_ProgressBar
Zend_Reflection
Einführung
Zend_Reflection Beispiele
Zend_Reflection Referenz
Zend_Registry
Die Registry verwenden
Zend_Rest
Einführung
Zend_Rest_Client
Zend_Rest_Server
Zend_Search_Lucene
Überblick
Indexerstellung
Einen Index durchsuchen
Abfragesprache
Abfrage Erzeugungs API
Zeichensätze
Erweiterbarkeit
Zusammenarbeit Mit Java Lucene
Erweitert
Die besten Anwendungen
Zend_Server
Einführung
Zend_Server_Reflection
Zend_Service
Einführung
Zend_Service_Akismet
Zend_Service_Amazon
Zend_Service_Amazon_Ec2
Zend_Service_Amazon_Ec2: Instanzen
Zend_Service_Amazon_Ec2: Windows Instances
Zend_Service_Amazon_Ec2: Reserved Instances
Zend_Service_Amazon_Ec2: CloudWatch Monitoring
Zend_Service_Amazon_Ec2: Amazon Maschinen Images (AMI)
Zend_Service_Amazon_Ec2: Elastischer Block Speicher (EBS)
Zend_Service_Amazon_Ec2: Elastische IP Adressen
Zend_Service_Amazon_Ec2: Schlüsselpaare
Zend_Service_Amazon_Ec2: Regionen und Availability Zones
Zend_Service_Amazon_Ec2: Sicherheitsgruppen
Zend_Service_Amazon_S3
Zend_Service_Audioscrobbler
Zend_Service_Delicious
Zend_Service_Flickr
Zend_Service_Nirvanix
Zend_Service_ReCaptcha
Zend_Service_Simpy
Einführung
Zend_Service_StrikeIron
Zend_Service_StrikeIron: Mitgelieferte Services
Zend_Service_StrikeIron: Erweiterte Verwendung
Zend_Service_Technorati
Zend_Service_Twitter
Zend_Service_Yahoo
Zend_Session
Einführung
Grundsätzliche Verwendung
Fortgeschrittene Benutzung
Globales Session Management
Zend_Session_SaveHandler_DbTable
Zend_Soap
Zend_Soap_Server
Zend_Soap_Client
WSDL Zugriffsmethoden
AutoDiscovery
Zend_Tag
Einführung
Zend_Tag_Cloud
Zend_Test
Einführung
Zend_Test_PHPUnit
Zend_Text
Zend_Text_Figlet
Zend_Text_Table
Zend_TimeSync
Einführung
Arbeiten mit Zend_TimeSync
Zend_Tool_Framework
Einführung
Verwenden des CLI Tools
Architecture
Erstellen von Providern für die Verwendung mit Zend_Tool_Framework
Mitgelieferte System Provider
Zend_Tool_Project
Zend_Tool_Project Einführung
Ein Projekt erstellen
Project Provider für Zend Tool
Zend_Translate
Einführung
Adapter für Zend_Translate
Benutzen von Übersetzungs Adaptoren
Migration von vorhergehenden Versionen
Zend_Uri
Zend_Uri
Zend_Validate
Einführung
Standard Prüfklassen
Kettenprüfungen
Schreiben von Prüfern
Prüfungsmeldungen
Zend_Version
Die Version des Zend Frameworks erhalten
Zend_View
Einführung
Controller Skripte
View Scripte
View Helfer
Zend_View_Abstract
Migration von vorhergehenden Versionen
Zend_Wildfire
Zend_Wildfire
Zend_XmlRpc
Einführung
Zend_XmlRpc_Client
Zend_XmlRpc_Server
Zend Framework Voraussetzungen
Einführung
Zend Framework Coding Standard für PHP
Übersicht
PHP Dateiformatierung
Namens Konventionen
Code Stil
Zend Framework Performance Guide
Einführung
Laden von Klassen
Zend_Db Performance
Internationalisierung (I18n) und Lokalisierung (L10n)
Darstellen der View
Urheberrecht Informationen