Analyseur Lucene

org.eclipse.help.base.luceneAnalyzer

3.0 (ajouté à l'origine dans la version 2.0 en tant que org.eclipse.help.luceneAnalyzer)

Ce point d'extension sert à enregistrer des analyseurs de texte pour l'aide, lors de l'indexation et de la rechercher de documentation.

Le système d'aide a recours à des capacités du moteur de recherche Lucene, ce qui permet d'indexer des flux de sèmes (mots). Les analyseurs créent des sèmes pour à partir du flux de caractères. Ils analysent le contenu et fournissent des jetons à utiliser avec l'index. Il est possible de segmenter le flux de texte en plusieurs sèmes. Un analyseur simple peut segmenter des flux où il y a des espaces, un autre peut filtrer les sèmes en fonction des besoins de l'application. La documentation étant conçue pour être lue, les analyseurs utilisés par le système d'aide doivent effectuer une segmentation linguistique et grammaticale du texte indexé. Pour certaines langues, la qualité de la recherche augmente de façon notable dans le cas de la suppression de mots types et de lemmisation.

L'analyseur de ce point d'extension remplace celui du système d'aide Eclipse d'un environnement local donné.

<!ELEMENT extension (analyzer*)>

<!ATTLIST extension

point CDATA #REQUIRED

id    CDATA #IMPLIED

name  CDATA #IMPLIED>


<!ELEMENT analyzer EMPTY>

<!ATTLIST analyzer

locale CDATA #REQUIRED

class  CDATA #REQUIRED>


L'exemple ci-dessous illustre la configuration de l'analyseur Lucene :

 

<extension id=

"com.xyx.XYZ"

point=

"org.eclipse.help.base.luceneAnalyzer"

>

<analyzer locale=

"ll_CC"

class=

"com.xyz.ll_CCAnalyzer"

/>

</extension>

La valeur de l'attribut locale doit correspondre à une chaîne de deux ou cinq caractères. Si l'analyseur est configuré pour une langue avec un code de deux lettres, il sera utilisé pour tous les environnements locaux de cette langue. S'il s'agit d'un code de cinq caractères, l'analyseur sera utilisé à la place.

La valeur de l'attribut class doit désigner une classe qui étend org.apache.lucene.analysis.Analyzer. Il est préférable que cet analyseur effectue un tri en minuscules pour les langues dont les résultats de recherche peuvent être améliorés en ne différenciant pas les majuscules des minuscules.

Le système d'aide d'Eclipse fournit des analyseurs pour toutes les langues. Pour l'anglais et l'allemand, les analyseurs filtrent les mots types et les minuscules et effectuent une lemmisation. Les analyseurs de toutes les autres langues filtrent simplement les minuscules.