TDH 常见运维命令（部分）

通过一条命令来搜集所有节点下regionServer的Exception日志:

cat /etc/hosts | grep 172.16 | awk '{print $1}' | xargs -i ssh {} " grep Exception -R /var/log/hyperbase1/*log"

截图如下。日志较多截不完，就直接取消了 TDH 常见运维命令（部分）

查找InceptorServer进程或者ES进程用到的jar包以及jar包对应的md5码

jps | grep InceptorServer| awk '{print $1}' |xargs -i jinfo {} | grep java.class.path|awk -F = "{print $2}" | xargs -d : -i echo {} | xargs md5sum

TDH 常见运维命令（部分）

查看ES进程对应的线程以及通过shell命令来查看进程所用到的端口号

jps | grep Elasticsearch | awk '{print $1}' | xargs -i top -Hb -p {} netstat

TDH 常见运维命令（部分）

快速查找某一个class所对应的jar包方法

find /usr/java/jdk1.7.0_71/lib -name "*jar" | awk '{print $1}' | xargs -i jar tf {} | grep JavaInterface

TDH 常见运维命令（部分）

免密登录练习

TDH 常见运维命令（部分）

正排索引与倒排索引的理解

倒排索引和正排索引都是检索的方式，正排索引是先扫描文档doc 从中找到相应的 word 词汇，在一些场景中比较适用，但是例如根据关键词，找到相应的文档全文，就可能需要扫描文档结束后才知道

文档中是否存在关键词，会比较不合理，因此可以使用倒排索引，用关键词和文档的映射去找到关键词，定位文档，效率会有所提升。

FST与Hashmap对比的理解

FST 是 lucene4中的一种数据结构。在部分场景中，可以使用 FST 替代 HashMap。

同时 FST也有相应的优点。

结构更加紧凑，压缩相应的存储空间。不考虑输出，是一个无环的 DFA

通过curl命令来执行以下es api操作创建索引、插入数据、查询数据、带条件查询数据

创建索引：curl -XPUT 'tdh198:9200/xue_test/?pretty'

插入数据：curl -XPUT 'tdh198:9200/xue_test/dev/1?pretty' -d '{

"firstname": "San",

"lastname": "Zhang",

"age": 26,

"on_board_date": "2015-10-31",

"hometown": "Beijing",

"school": "Nanjing University",

"married": false,

"about": "I love Beijing Opera"

查询数据：curl -XGET 'tdh198:9200/xue_test/dev/1?pretty'

带条件查询数据：curl -XPOST 'tdh198:9200/xue_test/_search' -d '{

"query": {

"match_all":{}

}

在 search 界面中对应

TDH 常见运维命令（部分）

数据对应为

TDH 常见运维命令（部分）

构建索引时，number_of_shards 和 number_of_replicas 注意事项

每个硬盘一个shard，一个shard存储不要超过30G。

初次索引的时候，把 replica 设置为 0，提高性能；

ES通过Shard Replication 保证Node节点出现故障时出现数据的完整性。

在Relocating的时候，Replica 从Primary 进行Recover时，Primary会先Snapshot Lucene，

然后拷贝数据到Replica,最后通过回放Translog 保证数据的一致性。

常见的分词方式都有哪些及概述（借鉴网上资料）

英文分词器:英文分词的基础是以空格切分为一个个的单词，但是不同的分词器会在此基础上存在细微的差别。在Transwarp Search中，可选的英文分词器有两种：一是标准分词器(standard analyzer):标准分词器根据Unicode Consortium的定义的单词边界(word boundaries)来切分文本，然后去掉大部分标点符号,最后，把所有词转为小写;二是语言分词器(english analyzer): english 分词器自带一套英语停用词库 ——像 and 或 the 这些与语义无关的通用词。这些词被移除后，把所有词转为小写，并根据语法规则转化成词根。

中文分词器:不同于英文分词规则，中文难以用空格来分词，只能逐字切分，所以使用的是另外一套分词器。在Transwarp Search中可选的中文分词器有两种; 一是ik分词器: ik分词使用了“正向迭代最细粒度切分算法”，简单说来就是Segmenter会逐字识别词元，并去掉停用词，将能够分出来的词元全部输出; 二是mmseg分词器: mmseg分词器是基于正向最大匹配算法将文本切分为歧义最小的token。

常见运维命令 rest api 篇

_cat 查看集群状态设计 shard node cluster

_cat/segments

查看各index的segment详细信息,包括segment名, 所属shard, 内存/磁盘占用大小, 是否刷盘, 是否merge为compound文件等.

查看index详细信息(/_cat/indices)

查看集群中所有index的详细信息,包括index状态,shard个数(primary/replica),doc个数等,可参考help. 可以查看指定index的信息(/_cat/indices/${index})

查看alias详细信息(/_cat/aliases)

查看集群中所有alias信息,包括alias对应的index, 路由配置等. 可以查看指定alias的信息(/_cat/aliases/${alias}).

查看shard详细信息(/_cat/shards)

查看各shard的详细情况,包括shard的分布, 当前状态(对于分配失败的shard会有失败原因), doc数量, 磁盘占用情况, shard的访问情况(如所有get请求的成功/失败次数以及对应耗时等). 可以指定index只查看某个index的shard信息(/_cat/shards/${index}).

查看单节点分配信息(/_cat/allocation)

查看单节点的自定义属性(/_cat/nodeattrs)

查看集群当前状态(/_cat/health)

查看集群各个节点的当前状态(/_cat/nodes)

查看集群master节点(/_cat/master

查看集群fielddata内存占用情况(/_cat/fielddata)

查看集群doc数量(/_cat/count)

查看集群的pendingTask情况(/_cat/pending_tasks)

查看各个节点的插件信息

curl "tdh198:9200/_cat/plugins?v"

查看集群的recovery情况

curl -XGET 'tdh198:9200/_cat/recovery?v'

查看集群各节点的threadpool统计信息(/_cat/thread_pool)

curl "tdh198:9200/_cat/thread_pool?v"

部分效果图：

查看各个节点信息插件信息

TDH 常见运维命令（部分）

查看集群的recovery情况

curl -XGET 'tdh198:9200/_cat/recovery?v

TDH 常见运维命令（部分）

查看集群各节点的threadpool统计信息(/_cat/thread_pool)

curl "tdh198:9200/_cat/thread_pool?v"

TDH 常见运维命令（部分）

TDH 常见运维命令（部分）

相关推荐