Previous Next

Überblick

Einführung

Zend_Search_Lucene ist eine komplett in PHP 5 geschriebene Textsuchmaschine für viele Zwecke. Da es seinen Index im Dateisystem ablegt und keinen Datenbankserver erfordert, kann es eine Suchfunktion für nahezu jede auf PHP basierende Website bereitstellen. Zend_Search_Lucene unterstützt die folgenden Funktionalitäten:

  • Klassifizierte Suche - die besten Ergebnisse werden zuerst zurückgegeben

  • Viele mächtige Abfragearten: Phrasensuche, Platzhaltersuche, Näherungssuche, Bereichssuche und mehr [1]

  • Suche anhand eines bestimmten Feldes (z.B. Titel, Autor, Inhalt)

Zend_Search_Lucene wurde abgeleitet vom Apache Lucene Projekt. Die aktuell unterstützte Lucene Version ist 2.2. [2] . Für weitere Informationen über Lucene, besuche http://lucene.apache.org/java/docs/ (http://lucene.apache.org/java/2_2_0/).

Note:

Frühere Zend_Search_Lucene Implementationen unterstützen das Lucene 1.9 Index Format.

Aktuell werden alle Indezes die mit diesen Versionen erstellt wurden nach der Aktualisierung von Zend_Search_Lucene, automatisch in das Lucene 2.1 Format upgegraded und daher mit vorherigen Zend_Search_Lucene Versionen nicht mehr kompatibel.

Dokumenten- und Feldobjekte

Für die Indizierung verarbeitet Zend_Search_Lucene Dokumente als atomare Objekte. Ein Dokument wird in benannte Felder unterteilt und diese Felder enthalten Inhalte, die durchsucht werden können.

Ein Dokument wird durch die Zend_Search_Lucene_Document Klasse abgebildet und die Objekte dieser Klasse enthalten Instanzen von Zend_Search_Lucene_Field, welche die Felder dieses Objektes repräsentieren.

Es ist wichtig zu beachten, dass dem Index jegliche Informationen hinzugefügt werden können. Anwendungsspezifische Informationen oder Metadaten können in den Dokumentfeldern gespeichert und später bei der Suche aus dem Dokument zurückgeholt werden.

Es liegt in der Verantwortung deiner Anwendung, den Indexer zu kontrollieren. Das bedeutet, dass die Daten aus jeder Quelle indiziert werden können, die von deiner Anwendung aus ansprechbar ist. Zum Beispiel könnten dies das Dateisystem, eine Datenbank, ein HTML Formular, usw. sein.

Die Zend_Search_Lucene_Field Klasse stellt verschiedene statische Methoden zum Erstellen mit unterschiedlichen Charakteristika bereit:

addField(Zend_Search_Lucene_Field::Keyword('doctype',
                                                 'autogenerated'));

// Feld wird weder in Token aufgeteilt noch indiziert, aber im Index gespeichert.
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('created',
                                                   time()));

// Feld mit einer binären Zeichenkette, die weder in Token aufgeteilt
// noch indiziert, aber im Index gespeichert wird.
$doc->addField(Zend_Search_Lucene_Field::Binary('icon',
                                                $iconData));

// Feld wird in Token aufgeteilt und indiziert und im Index gespeichert.
$doc->addField(Zend_Search_Lucene_Field::Text('annotation',
                                              'Document annotation text'));

// Feld wird in Token aufgeteilt und indiziert, aber nicht im Index gespeichert.
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents',
                                                  'My document content'));

Jede dieser Methoden (ausser der Zend_Search_Lucene_Field::Binary() Methode) hat einen optionalen $encoding Parameter. Er definiert das Encoding für Eingabedaten.

Die Codierung kann für unterschiedliche Dokumente verschieden sein genauso wie für unterschiedliche Felder innerhalb eines Dokuments:

addField(Zend_Search_Lucene_Field::Text('title', $title, 'iso-8859-1'));
$doc->addField(Zend_Search_Lucene_Field::UnStored('contents', $contents, 'utf-8'));

Wenn der encoding Parameter nicht angegeben wurde, wird das aktuelle Gebietsschema wärend der Verarbeitungzeit verwendet. Zum Beispiel:

addField(Zend_Search_Lucene_Field::UnStored('contents', $contents));

Felder werden immer gespeichert und vom Index in UTF-8 Codierung zurückgegeben. Jede notwendige Konvertierung zu UTF-8 geschieht automatisch.

Text Analysatoren (siehe unten) können auch Text in andere Codierungen konvertieren. Aktuell konvertiert der Standard Analysator Text in die 'ASCII//TRANSLIT' Codierung. Man sollte aber vorsichtig sein; diese Übersetzung hängt vom aktuellen Gebietsschema ab.

Feld Namen werden durch die Auswahl in der addField() Methode definiert.

Java Lucene verwendet das "contents" Feld für die Suche als Standardfeld. Zend_Search_Lucene durchsucht standardmäßig alle Felder, aber dieses Verhalten ist konfigurierbar. Für Details siehe das Kapitel "Standardsuchfeld".

Verstehen der Feldtypen

  • Keyword (Stichwort) Felder werden gespeichert und indiziert, was bedeutet, dass sie sowohl durchsucht als auch in Suchergebnissen angezeigt werden können. Sie werden nicht in einzelne Worte (Tokens) zerteilt. Datenbankfelder für Aufzählungen lassen sich normalerweise leicht in Keyword Felder für Zend_Search_Lucene überführen.

  • UnIndexed (unindizierte) Felder sind nicht durchsuchbar, werden aber bei Suchtreffern zurückgegeben. Datenbank Zeitstempel, Primärschlüssel, Pfade des Dateisystems und andere externe Identifikatoren sind gute Kandidaten für UnIndexed Felder.

  • Binary (binäre) Felder werden nicht in Token aufgeteilt und indiziert, aber für die Rückgabe bei Suchtreffern gespeichert. Sie können für die Speicherung aller Daten, die als binäre Zeichenkette kodiert sind, verwendet werden, wie z.B. eine Grafiksymbol.

  • Text Felder werden gespeichert, indiziert und in Token aufgeteilt. Text Felder sind geeignet für die Speicherung von Informationen wie Themen und Überschriften, die sowohl durchsuchbar sein müssen, als auch in Suchergebnissen zurückgegeben werden müssen.

  • UnStored (nicht gespeicherte) Felder werden in Token aufgeteilt und indiziert, aber nicht im Index gespeichert. Umfangreiche Texte werden am besten durch diesen Feldtyp indiziert. Gespeicherte Daten benötigen einen größeren Index auf der Festplatte, wenn du also Daten nur durchsuchbar aber nicht wieder ausgegeben haben musst, verwende ein UnStored Feld. UnStored Felder sind geeignet, wenn ein Zend_Search_Lucene Index in Kombination mit einer relationalen Datenbank verwendet wird. Du kannst große Datenfelder mit UnStored Feldern für die Suche indizieren und sie aus der relationalen Datenbank durch die Verwendung eines seperaten Feldes mithilfe eines Identifikators zurückholen.

    Zend_Search_Lucene_Field Typen
    Feldtyp Gespeichert Indiziert In Token aufgeteilt Binär
    Keyword Ja Ja Nein Nein
    UnIndexed Ja Nein Nein Nein
    Binary Ja Nein Nein Ja
    Text Ja Ja Ja Nein
    UnStored Nein Ja Ja Nein

HTML Dokumente

Zend_Search_Lucene bietet ein HTML Parsing Feature. Dokumente können direkt von einer HTML Datei oder String erzeugt werden:

addDocument($doc);
...
$doc = Zend_Search_Lucene_Document_Html::loadHTML($htmlString);
$index->addDocument($doc);

Die Zend_Search_Lucene_Document_Html Klasse verwendet die DOMDocument::loadHTML() und die DOMDocument::loadHTMLFile() Methode um die HTML Quelle zu analysieren, deswegen benötigt Sie kein gut geformtes HTML noch ein XHTML. Auf der anderen Seite ist es abhängig von der angegebenen Codierung im "meta http-equiv" Tag Header.

Die Zend_Search_Lucene_Document_Html Klasse erkennt Dokument Titel, Body Dokument Header Meta Tags.

Das 'title' Feld ist aktuell der /html/head/title Wert. Er wird inneralb des Index gespeichert, Tokenized und für die Suche zur Verfügung gestellt.

Das 'body' Feld ist aktuell der Inhalt vom Body der HTML Datei oder des Strings. Er enthält keine Skripte, Kommentare oder Attribute.

Die loadHTML() und loadHTMLFile() Methoden der Zend_Search_Lucene_Document_Html Klasse haben auch ein zweites optionales Argument. Wenn es auf true gesetzt wird, wird der Inhalt vom Body auch innerhalb des Index gespeichert und kann vom Index empfangen werden. Standardmäßig wird der Body nur Tokenized und Indiziert, aber nicht gespeichert.

Andere Dokument Header Meta Tags produzieren zusätzliche Dokument Felder. Der Feld 'name' wird vom 'name' Attribut genommen, und das 'content' Attribut veröffentlicht das Feld 'value'. Beide werden geteilt, indiziert und gespeichert damit damit Dokumente mit Hilfe Ihrer Meta Tags durchsucht werden können (zum Beispiel durch Schlüsselwörter).

Analysierte Dokumente können durch den Programmierer mit jedem anderen Feld ausgegeben werden:

addField(Zend_Search_Lucene_Field::UnIndexed('created',
                                                   time()));
$doc->addField(Zend_Search_Lucene_Field::UnIndexed('updated',
                                                   time()));
$doc->addField(Zend_Search_Lucene_Field::Text('annotation',
                                              'Document annotation text'));
$index->addDocument($doc);

Dokument-Links sind im erstellten Dokument nicht enthalten, können aber mit den Zend_Search_Lucene_Document_Html::getLinks() und Zend_Search_Lucene_Document_Html::getHeaderLinks() Methoden empfangen werden:

getLinks();
$headerLinksArray = $doc->getHeaderLinks();

[1] Derzeit werden Abfragen für einzelne und mehrere Begriffe, für Phrasen, für boolesche Ausdrücke und Unterabfragen unterstützt.
[2] Die Unterstützung des Lucene 2.1 Index Formats (welches auch in Lucene 2.2 verwendet wird) ist im aktuellen "trunk" Zweig enthalten. Es ist verfügbar über SVN im aktuellen nächtlichen Schnappschuß. Wir hoffen die Unterstützung des Lucene 2.1 Index Formats im ZF 1.5.0 zu inkludieren. Das aktuelle Release (ZF V1.0.4) arbeitet mit den Indexformaten Lucene 1.9-2.0.
Previous Next
Introduction to Zend Framework
Übersicht
Installation
Zend_Acl
Einführung
Verfeinern der Zugriffskontrolle
Fortgeschrittene Verwendung
Zend_Auth
Einführung
Datenbanktabellen Authentifizierung
Digest Authentication
HTTP Authentication Adapter
LDAP Authentifizierung
Open ID Authentifikation
Zend_Cache
Einführung
Die Theorie des Cachens
Zend_Cache Frontends
Zend_Cache Backends
Zend_Captcha
Introduction
Captcha Operation
Captcha Adapters
Zend_Config
Einleitung
Theory of Operation
Zend_Config_Ini
Zend_Config_Xml
Zend_Console_Getopt
Einführung in Getopt
Definieren von Getopt Regeln
Holen von Optionen und Argumenten
Konfigurieren von Zend_Console_Getopt
Zend_Controller
Zend_Controller Schnellstart
Zend_Controller Grundlagen
Der Front Controller
Das Request Objekt
Der Standard Router: Zend_Controller_Router_Rewrite
Der Dispatcher
Action Kontroller
Action Helfer
Das Response Objekt
Plugins
Eine konventionelle modulare Verzeichnis Struktur verwenden
MVC Ausnahmen
Migration von vorhergehenden Versionen
Zend_Currency
Einführung in Zend_Currency
Arbeiten mit Währungen
Migration von vorhergehenden Versionen
Zend_Date
Einführung
Theorie der Arbeitsweise
Basis Methoden
Zend_Date API Übersicht
Erstellen von Datumswerten
Konstanten für generelle Datums Funktionen
Funktionierende Beispiele
Zend_Db
Zend_Db_Adapter
Zend_Db_Statement
Zend_Db_Profiler
Zend_Db_Select
Zend_Db_Table
Zend_Db_Table_Row
Zend_Db_Table_Rowset
Zend_Db_Table Relationships
Zend_Debug
Variablen ausgeben
Zend_Dojo
Introduction
Zend_Dojo_Data: dojo.data Envelopes
Dojo View Helpers
Dojo Form Elements and Decorators
Zend_Dom
Introduction
Zend_Dom_Query
Zend_Exception
Verwenden von Ausnahmen
Zend_Feed
Einführung
Feeds importieren
Feeds von Websites abrufen
Einen RSS Feed konsumieren
Einen Atom Feed konsumieren
Einen einzelnen Atom Eintrag konsumieren
Verändern der Feed- und Eintragsstruktur
Eigene Klassen für Feeds und Einträge
Zend_File
Zend_File_Transfer
Validators for Zend_File_Transfer
Zend_Filter
Einführung
Standard Filter Klassen
Filter Ketten
Filter schreiben
Zend_Filter_Input
Zend_Filter_Inflector
Zend_Form
Zend_Form
Schnellstart mit Zend_Form
Erstellen von Form Elementen mit Hilfe von Zend_Form_Element
Erstellen von Form durch Verwendung von Zend_Form
Erstellen von eigenem Form Markup durch Zend_Form_Decorator
Standard Form Elemente die mit dem With Zend Framework ausgeliefert werden
Standard Form Dekoratore die mit dem Zend Framework ausgeliefert werden
Internationalisierung von Zend_Form
Fortgeschrittene Verwendung von Zend_Form
Zend_Gdata
Einführung zu Gdata
Authentifizierung mit AuthSub
Authentifizieren mit ClientLogin
Google Kalender verwenden
Verwenden der Google Dokumente Listen Daten API
Google Tabellenkalkulation verwenden
Google Apps Provisionierung verwenden
Google Base verwenden
Verwenden der YouTube Daten API
Picasa Web Alben verwenden
Gdata Ausnahmen auffangen
Zend_Http
Zend_Http_Client - Einführung
Zend_Http_Client - Fortgeschrittende Nutzung
Zend_Http_Client - Verbindungsadapter
Zend_Http_Cookie und Zend_Http_CookieJar
Zend_Http_Response
Zend_InfoCard
Einführung
Zend_Json
Einführung
Grundlegende Verwendung
JSON Objects
XML zu JSON Konvertierung
Zend_Json_Server - JSON-RPC server
Zend_Layout
Einführung
Zend_Layout Schnellstart
Zend_Layout Konfigurations Optionen
Erweiterte Verwendung von Zend_Layout
Zend_Ldap
Einleitung
Zend_Loader
Dynamisches Laden von Dateien und Klassen
Plugins laden
Zend_Locale
Einführung
Zend_Locale verwenden
Normalisierung und Lokalisierung
Arbeiten mit Daten und Zeiten
Unterstützte Sprachen für Gebietsschemata
Unterstützte Regionen für Gebietsschemata
Zend_Log
Übersicht
Writer
Formatter
Filter
Zend_Mail
Einführung
Versand über SMTP
Versand von mehreren E-Mails über eine SMTP Verbindung
Verwendung von unterschiedlichen Versandwegen
HTML E-Mail
Anhänge
Empfänger hinzufügen
Die MIME Abgrenzung kontrollieren
Zusätzliche Kopfzeilen
Zeichensätze
Kodierung
SMTP Authentifizierung
SMTP Übertragungen sichern
Lesen von Mail Nachrichten
Zend_Measure
Einführung
Erstellung einer Maßeinheit
Ausgabe von Maßeinheiten
Manipulation von Maßeinheiten
Arten von Maßeinheiten
Zend_Memory
Übersicht
Memory Manager
Memory Objekte
Zend_Mime
Zend_Mime
Zend_Mime_Message
Zend_Mime_Part
Zend_OpenId
Einführung
Zend_OpenId_Consumer Grundlagen
Zend_OpenId_Provider
Zend_Paginator
Introduction
Usage
Configuration
Advanced usage
Zend_Pdf
Einführung
Erstellen und Laden von PDF Dokumenten
Änderungen von PDF Dokumenten speichern
Dokument Seiten
Zeichnen
Dokument Informationen und Metadaten
Anwendungsbeispiel für die Zend_Pdf Komponente
Zend_Registry
Die Registry verwenden
Zend_Rest
Einführung
Zend_Rest_Client
Zend_Rest_Server
Zend_Search_Lucene
Überblick
Indexerstellung
Einen Index durchsuchen
Abfragesprache
Abfrage Erzeugungs API
Zeichensätze
Erweiterbarkeit
Zusammenarbeit Mit Java Lucene
Erweitert
Die besten Anwendungen
Zend_Server
Einführung
Zend_Server_Reflection
Zend_Service
Einführung
Zend_Service_Akismet
Zend_Service_Amazon
Zend_Service_Audioscrobbler
Zend_Service_Delicious
Zend_Service_Flickr
Zend_Service_Nirvanix
Zend_Service_ReCaptcha
Zend_Service_Simpy
Einführung
Zend_Service_StrikeIron
Zend_Service_StrikeIron: Mitgelieferte Services
Zend_Service_StrikeIron: Erweiterte Verwendung
Zend_Service_Technorati
Zend_Service_Yahoo
Zend_Session
Einführung
Grundsätzliche Verwendung
Fortgeschrittene Benutzung
Globales Session Management
Zend_Session_SaveHandler_DbTable
Zend_Soap
Zend_Soap_Server
Zend_Soap_Client
WSDL Zugriffsmethoden
AutoDiscovery. Einführung
Automatische Erkennung von Klassen.
Funktionen für Autodiscovery.
Automatische Erkennung. Datentypen.
Zend_Test
Introduction
Zend_Test_PHPUnit
Zend_Text
Zend_Text_Figlet
Zend_TimeSync
Einführung
Arbeiten mit Zend_TimeSync
Zend_Translate
Einführung
Adapter für Zend_Translate
Benutzen von Übersetzungs Adaptoren
Zend_Uri
Zend_Uri
Zend_Validate
Einführung
Standard Prüfklassen
Kettenprüfungen
Schreiben von Prüfern
Zend_Version
Auslesen der Version des Zend Frameworks
Zend_View
Einführung
Controller Skripte
View Scripte
View Helfer
Zend_View_Abstract
Zend_Wildfire
Zend_Wildfire
Zend_XmlRpc
Einführung
Zend_XmlRpc_Client
Zend_XmlRpc_Server
Zend Framework Voraussetzungen
PHP Version
PHP Erweiterungen
Zend Framework Komponenten
Zend Framework Abhängigkeiten
Zend Framework Coding Standard für PHP
Übersicht
PHP Dateiformatierung
Namens Konventionen
Code Stil
Urheberrecht Informationen