ELK Stack插件——Analyze中文分词

tanglu 3357 2019-05-17

一、什么是分词

Elasticsearch的Analysis功能叫做分词,是把全文本转换成一系列单词的过程。Elasticsearch本身有很多的分词API,如standard(按单词切分)、simple、whitespace(按空格切分)、pattern(正则分词)等等,如图:

分词.png


二、Elasticsearch的中文分词

由于外国人对于汉字的不了解,没有词汇的概念,只是单纯的逐个拆分每句话中的每个字。为了更好的进行中文分词,需要使用专门的中文分词插件elasticsearch-analysis-ik,简称IK。

1、下载IK分词器,下载地址是https://github.com/medcl/elasticsearch-analysis-ik

2、将下载好的包解压并放到elasticsearch/plugins目录下

ik1.png

3、重启Elasticsearch服务

4、查询数据进行测试,可以看到图中将analyzer指定为了ik_smart,除此还可以使用最大化分词ik_max_smart,后者可以尽可能的多去进行分词。具体用哪个看自己需要:

ik2.png

版权声明
本站所有文章均为原创,转载请注明出处!小站维护不易,如果对您有所帮助,希望能点击一下站内广告,谢谢!
上一篇:大数据基础(2)Hadoop的安装与基本配置
下一篇:【Zabbix监控教程】LLD低级别自动发现配置教程
相关文章

 发表评论

暂时没有评论,来抢沙发吧~

微信二维码