本站所有文章均为原创,如对您有帮助,恳请帮忙点击任何一处广告

ELK Stack插件——Analyze中文分词

发布:TangLu2019-5-17 16:17分类: ELK Stack 标签: ELK ElasticSearch logstash kibana ELKStack

一、什么是分词

Elasticsearch的Analysis功能叫做分词,是把全文本转换成一系列单词的过程。Elasticsearch本身有很多的分词API,如standard(按单词切分)、simple、whitespace(按空格切分)、pattern(正则分词)等等,如图:

分词.png


二、Elasticsearch的中文分词

由于外国人对于汉字的不了解,没有词汇的概念,只是单纯的逐个拆分每句话中的每个字。为了更好的进行中文分词,需要使用专门的中文分词插件elasticsearch-analysis-ik,简称IK。

1、下载IK分词器,下载地址是https://github.com/medcl/elasticsearch-analysis-ik

2、将下载好的包解压并放到elasticsearch/plugins目录下

ik1.png

3、重启Elasticsearch服务

4、查询数据进行测试,可以看到图中将analyzer指定为了ik_smart,除此还可以使用最大化分词ik_max_smart,后者可以尽可能的多去进行分词。具体用哪个看自己需要:

ik2.png

温馨提示如有转载或引用以上内容之必要,敬请将本文链接作为出处标注,谢谢合作!
et_highlighter51
版权所有:《Linux运维技术学习站点
文章标题:《ELK Stack插件——Analyze中文分词
除非注明,文章均为 《Linux运维技术学习站点》 原创
转载请注明本文短网址:http://www.linuxe.cn/post-495.html  [生成短网址]

已有 0/2253 人参与

发表评论:

欢迎分享Linux运维技术学习站点

欢迎使用手机扫描访问本站,还可以关注微信哦~