Lucene-Analyzer

org.eclipse.help.base.luceneAnalyzer

3.0 (original hinzugefügt in Freigabe 2.0 als org.eclipse.help.luceneAnalyzer)

An diesem Erweiterungspunkt können Textanalysefunktionen registriert werden, die von der Hilfefunktion beim Indexieren und Durchsuchen von Dokumentation verwendet werden.

Die Hilfefunktion nutzt das Leistungsspektrum der Suchmaschine "Lucene", die das Indexieren von Tokendatenströmen (Wortdatenströmen) zulässt. Analysefunktionen erstellen Token aus dem Zeichendatenstrom. Sie untersuchen den Textinhalt und stellen Token für die Verwendung mit dem Index zur Verfügung. Der Textdatenstrom kann auf vielen eindeutigen Wegen mit einem Token versehen werden. Eine ganz einfache Analysefunktion kann Datenströme an Leerzeichen mit einem Token versehen, wohingegen eine andere Analysefunktion Token gemäß den Anforderungen der Anwendung filtern kann. Da die Dokumentation zumeist in normalem Text vorliegt, ist es wünschenswert, dass Analysefunktionen, die durch die Hilfefunktion eingesetzt werden, bei der Tokenerstellung und Normalisierung von indexiertem Text Sprache und Grammatik beachten. Bei einigen Sprachen wird die Suchqualität erheblich verbessert, wenn Stoppwörter aus dem indexierten Text entfernt und eine Wortstammanalyse ausgeführt werden.

Die an diesem Erweiterungspunkt ergänzte Analysefunktion überschreibt die Funktion, die von der Eclipse-Hilfefunktion für eine bestimmte Ländereinstellung bereitgestellt wird.

<!ELEMENT extension (analyzer*)>

<!ATTLIST extension

point CDATA #REQUIRED

id    CDATA #IMPLIED

name  CDATA #IMPLIED>


<!ELEMENT analyzer EMPTY>

<!ATTLIST analyzer

locale CDATA #REQUIRED

class  CDATA #REQUIRED>


Das folgende Beispiel stellt die Konfiguration des Lucene-Analyzers dar:

 

<extension id=

"com.xyx.XYZ"

point=

"org.eclipse.help.base.luceneAnalyzer"

>

<analyzer locale=

"ll_CC"

class=

"com.xyz.ll_CCAnalyzer"

/>

</extension>

Der Wert des Attributs locale muss entweder eine fünfstellige oder eine zweistellige Zeichenfolge für die Ländereinstellung sein. Falls die Analysefunktion für eine Sprache durch Angabe einer zweistelligen Sprachenkennung konfiguriert wird, wird die Analysefunktion für alle Ländereinstellungen dieser Sprache verwendet. Wird die Analysefunktion hingegen mit einer fünfstelligen Ländereinstellung konfiguriert, wird diese verwendet.

Der Wert des Attributs class muss eine Klasse darstellen, die org.apache.lucene.analysis.Analyzer erweitert. Es empfiehlt sich, dass diese Analysefunktion eine Kleinschreibungsfilterung bei Sprachen durchführt, bei denen dies in Betracht kommt.

Die Eclipse-Hilfefunktion stellt Analysefunktionen für alle Sprachen bereit. Bei Deutsch und Englisch führen die Analysefunktionen eine Stoppwortfilterung, eine Kleinschreibungsfilterung sowie eine Wortstammanalyse durch. Bei allen anderen Sprachen führen die Analysefunktionen nur die Kleinschreibungsfilterung durch.