Lucene 分析器

org.eclipse.help.base.luceneAnalyzer

3.0(最初在发行版 2.0 中是作为 org.eclipse.help.luceneAnalyzer 添加的)

此扩展点用来注册文本分析器以便在建立索引和搜索文档时供帮助使用。

帮助利用 Lucene 搜索引擎的功能,它允许为标记流(字词的流)建立索引。分析器从字符流创建标记。它们检查文本内容并提供标记以便索引使用。可用多种唯一的方法标记文本流。普通分析器可以在空格处标记流,另一个不同的分析器可以根据应用程序需要执行标记过滤。由于文档通常是人类可读的文本,所以期望帮助系统使用的分析器对建立索引的文本执行语言和语法敏感的标记化和规范化。对于某些语言,如果除去停止字并且对建立索引的文本执行单词衍生形态查询,则搜索质量会明显提高。

添加至此扩展点的分析器将覆盖由给定语言环境的 Eclipse 帮助系统提供的分析器。

<!ELEMENT extension (analyzer*)>

<!ATTLIST extension

point CDATA #REQUIRED

id    CDATA #IMPLIED

name  CDATA #IMPLIED>


<!ELEMENT analyzer EMPTY>

<!ATTLIST analyzer

locale CDATA #REQUIRED

class  CDATA #REQUIRED>


以下是“Lucene 分析器”配置的示例:

 

<extension id=

"com.xyx.XYZ"

point=

"org.eclipse.help.base.luceneAnalyzer"

>

<analyzer locale=

"ll_CC"

class=

"com.xyz.ll_CCAnalyzer"

/>

</extension>

locale 属性的值必须表示五个字符或两个字符的语言环境字符串。如果通过指定 2 个字母的语言为某语言配置了分析器,则该分析器将用于此语言的所有语言环境。如果配置了符合 5 个字符语言环境的分析器,则将使用该语言环境。

class 属性的值必须表示扩展 org.apache.lucene.analysis.Analyzer 的类。建议该分析器对可能会增大搜索命中数的语言通过区分大小写的搜索执行小写过滤。

Eclipse 帮助系统为所有语言都提供了分析器。对于“英语”和“德语”,分析器执行停止字过滤、小写过滤和词根操作。对于所有其它语言,提供的分析器只执行小写过滤。