A súgó kiaknázza a Lucene keresőmotor képességeit, vagyis hogy képes indexelni a tokenfolyamokat (szófolyamokat). Az elemzők a karakterfolyamból jelsorokat hoznak létre. A szöveg tartalmát vizsgálják, és jelsorokat biztosítanak az indexhez. A szövegfolyam számos egyedi módon alakítható jelsorozattá. Egy triviális elemző képes a szóközszerű karaktereknél felvágni tokenekre a folyamokat, egy másik pedig képes lehet elvégezni a tokenek szűrését az alkalmazás igényeinek megfelelően. Mivel a dokumentáció jellemzően értelemmel bíró szöveg, kívánatos, hogy a súgórendszer által használt elemzők az indexelt szöveg nyelv- és nyelvtan-tudatos tokenizálását és normalizálását végezzék el. Bizonyos nyelvek esetén a keresés minősége lényegesen megjavul, ha a stopszavak törlése és a szótőképzés az indexelt szövegen történik meg.
Az e kiterjesztési ponthoz adott elemző újradefiniálja az Eclipse súgórendszer által biztosítottat egy adott területi beállításhoz.
<!ELEMENT extension (analyzer*)>
<!ATTLIST extension
point CDATA #REQUIRED
id CDATA #IMPLIED
name CDATA #IMPLIED>
<!ELEMENT analyzer EMPTY>
<!ATTLIST analyzer
locale CDATA #REQUIRED
class CDATA #REQUIRED>
<extension id=
"com.xyx.XYZ"
point=
"org.eclipse.help.base.luceneAnalyzer"
>
<analyzer locale=
"ll_CC"
class=
"com.xyz.ll_CCAnalyzer"
/>
</extension>
A class attribútum értéke az org.apache.lucene.analysis.Analyzer kiterjesztét végző osztály. Előnyös lehet, ha az elemző kisbetűs szűrést végez olyan nyelvek esetén, amelyeknél a keresés során a kis- és nagybetűk megkülönböztetésének beállításával növelhető a találatok száma.
Copyright (c) 2000, 2003 IBM Corporation és mások.
Minden jog fenntartva. Jelen program és annak kísérőanyagai a csomaghoz
tartozó, illetve a
http://www.eclipse.org/legal/epl-v10.html
címen is elérhető Eclipse Public License 1.0 verziójának hatálya alatt lettek
közzétéve.