|
|
Zend_Search_Lucene foi projetado para trabalhar com conjuntos de caracteres UTF-8. Arquivos de índice armazenam dados unicode no formato de codificação "UTF-8 modificado" usado pelo Java. O núcleo do Zend_Search_Lucene suporta-os plenamente, com uma exceção: [1]
Em todo caso, tanto os analizadores de texto, quanto os interpretadores e processadores de consultas, utilizam a função ctype_alpha() para tokenizar os textos e as consultas. A função ctype_alpha() não suporta UTF-8 e sua substituição deve ser considerada em um futuro próximo.
Por enquanto, recomendamos a conversão dos dados para a representação ASCII. [2] (isso vale tanto para consultas, quanto para armazenagem de documentos fonte):
addField(Zend_Search_Lucene_Field::UnStored('contents', $docText));
...
$query = iconv('', 'ASCII//TRANSLIT', $query);
$hits = $index->find($query);
?>
|
|
Copyright © 2005-2011 Zend Technologies Inc (compiled by mikaelkael with ZFDocumentor - SVN 20188).

