lucene-solr-user mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From lupiss <lupitaga...@hotmail.com>
Subject Re: Best way to index without diacritics
Date Thu, 23 Apr 2009 03:28:28 GMT

hola de nuevo!

gracias por la yuda, ya pude solucionar lo de los acentos :D
por si a alguien le sirve el tip, todo está en poner en el schema.xml la
clase isolatin mas o menos así:

hello again! 

thanks for the help, I could solve it for the accents: D 
if someone helps the tip, everything is put in the schema.xml ISOLATINO
class more or less like this:

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory"
synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
<filter class="solr.ISOLatin1AccentFilterFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true"
words="stopwords.txt"/>
        <filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1" generateNumberParts="1" catenateWords="1"
catenateNumbers="1" catenateAll="0"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.EnglishPorterFilterFactory"
protected="protwords.txt"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
     <filter class="solr.ISOLatin1AccentFilterFactory"/>

        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"
ignoreCase="true" expand="true"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true"
words="stopwords.txt"/>
        <filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1" generateNumberParts="1" catenateWords="0"
catenateNumbers="0" catenateAll="0"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.EnglishPorterFilterFactory"
protected="protwords.txt"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
    </fieldType>

además los archivos xml que se van a indexar deberán estar codificados en
utf-8, en mi caso uso el solr integrado a una aplicación por lo cual ahora
tengo que ver como enviar la cadena a indexar con codificación utf-8 ,
alguien sabe cómo hacerlo? 

xml files also to be indexed must be encoded in utf-8 in my case I use the
integrated application SOLR so now I see how to send the string with index
utf-8 encoding, someone knows how to do ?

-- 
View this message in context: http://www.nabble.com/Best-way-to-index-without-diacritics-tp18935599p23189640.html
Sent from the Solr - User mailing list archive at Nabble.com.


Mime
View raw message