pinyinAnalyzer

Introduction: solr 的中文拼音分词过滤器,支持全拼,简拼和简拼和全拼同时输出,同时提供了一个基于 NGram 算法的类似 EdgeNGramTokenFilter 的过滤器,但实现了双向过滤。
More: Author   ReportBugs   
Tags:

================= solr 的中文拼音分词过滤器,支持全拼,简拼和简拼和全拼同时输出,同时提供了一个基于 NGram 算法的类似 EdgeNGramTokenFilter 的过滤器,但实现了双向过滤。

在 Solr 4.3.0 版本 ji 及及以上版本中测试通过。

#Example/示例

#过滤器类 org.liangbl.solr.analysis.PinyinTransformTokenFilterFactory org.liangbl.solr.analysis.PinyinNGramTokenFilterFactory

#Configuration/配置项 ##isOutChinese If original chinese term would keep in output or not.Optional values:true(default)/false.
是否保留原输入中文词元。可选值:true(默认)/false

##outputFormat If output pinyin would be in full format or in short format or both.The short format is formed by every first character of pinyin of every chinese character.Optional values:both(default)/fullshort*.
输出完整拼音格式还是输出简拼或者两者。简拼输出是由原中文词元的各单字的拼音结果的首字母组成的。可选值:both(default)/fullshort*

##minTermLength Only output pinyin term for chinese term which character lenght is greater than or equals minTermLenght.The default value is 2. 仅输出字数大于或等于minTermLenght的中文词元的拼音结果。默认值为 2。

##minGramSize the smallest n-gram to generate 最小拼音切分长度。

##minGramSize the largest n-gram to generate 最大拼音切分长度。

关于依赖&构建&部署

#部署的时候别忘了把 pinyin4j 的 jar 包也拷贝到 solr 项目的 lib 路径下!

Apps
About Me
GitHub: Trinea
Facebook: Dev Tools