pinyinAnalyzer

Introduction: solr 的中文拼音分词过滤器,支持全拼,简拼和简拼和全拼同时输出,同时提供了一个基于 NGram 算法的类似 EdgeNGramTokenFilter 的过滤器,但实现了双向过滤。
More: Author   ReportBugs   
Tags:

================= solr 的中文拼音分词过滤器,支持全拼,简拼和简拼和全拼同时输出,同时提供了一个基于 NGram 算法的类似 EdgeNGramTokenFilter 的过滤器,但实现了双向过滤。

在 Solr 4.3.0 版本 ji 及及以上版本中测试通过。

Example/示例

过滤器类

org.liangbl.solr.analysis.PinyinTransformTokenFilterFactory org.liangbl.solr.analysis.PinyinNGramTokenFilterFactory

Configuration/配置项

isOutChinese

If original chinese term would keep in output or not.Optional values:true(default)/false.
是否保留原输入中文词元。可选值:true(默认)/false

outputFormat

If output pinyin would be in full format or in short format or both.The short format is formed by every first character of pinyin of every chinese character.Optional values:both(default)/fullshort.
输出完整拼音格式还是输出简拼或者两者。简拼输出是由原中文词元的各单字的拼音结果的首字母组成的。可选值:
both(default)/fullshort

minTermLength

Only output pinyin term for chinese term which character lenght is greater than or equals minTermLenght.The default value is 2. 仅输出字数大于或等于minTermLenght的中文词元的拼音结果。默认值为 2。

minGramSize

the smallest n-gram to generate 最小拼音切分长度。

minGramSize

the largest n-gram to generate 最大拼音切分长度。

关于依赖&构建&部署

部署的时候别忘了把 pinyin4j 的 jar 包也拷贝到 solr 项目的 lib 路径下!

Apps
About Me
GitHub: Trinea
Facebook: Dev Tools