Elasticsearch

中间件 > Elasticsearch es

发布时间 : 2022-12-24 09:49

字数:2.1k 阅读 :

Elasticsearch 为什么是分布式
Elasticsearch 为什么搜索怎么快
Elasticsearch是怎么搜索数据的
elasticsearch 的master选举流程

Elasticsearch 为什么是分布式

主要原因有以下几点：

可扩展性：就是Elasticsearch在处理大量的数据和高并发查询时，是将数据和和负载分布到多个节点上，这样可以实现水平扩展，就不会影响整个系统的性能。
容错性：elasticsearch利用分片机制将数据分散存储在多个节点上，一旦某个节点出现故障，其他节点继续提供服务，这样就能避免系统因某个节点故障就瘫痪不能用。
高可用性：elasticsearch通过将数据复制到多个节点上，要是某个节点出现失效不可用时，其他节点仍然可用，就能保证系统继续提供服务，从而保证了数据不会丢失。
高性能：分布式架构可以是数据和查询负载分布在多个节点上，从而提高了系统的处理能力和性能，每个节点都可以处理一部分数据和查询，以提供更快的响应时间。

还有以下说法：
Elasticsearch之所以采用分布式架构，主要是为了满足以下需求和目标：

可扩展性： Elasticsearch处理大规模数据集和高并发查询的能力是其成功的关键。通过采用分布式架构，可以将数据和负载分发到多个节点上，从而水平扩展系统的容量和性能。随着数据量和负载的增加，可以简单地添加新的节点来处理更多的工作负载，而无需修改现有的架构和代码。
容错性和高可用性： 分布式架构可以提高系统的容错性和高可用性。当一个节点出现故障或宕机时，其他节点可以接管并继续处理请求，从而保证系统的持续运行。Elasticsearch使用分片副本（replication）来复制数据到多个节点上，以提供冗余和容错能力。这样，在一个或多个节点不可用时，数据仍然可供访问，并且不会有数据丢失的风险。
性能优化： 分布式架构可以提高系统的性能。数据和查询负载可以分散到多个节点上并行处理，从而加快查询响应时间和提高吞吐量。每个节点都具有计算和存储资源，可以处理一部分数据和查询，从而共同完成整个系统的工作。
灵活性和弹性： Elasticsearch的分布式架构具有很高的灵活性和弹性。可以动态添加或删除节点，根据需求调整集群的规模和容量。这使得系统可以适应不断变化的数据量和负载，同时也提供了资源的优化和管理的便利性。

综上所述，Elasticsearch采用分布式架构，以满足可扩展性、容错性、高可用性和性能优化的需求。这使得Elasticsearch成为一个分布式搜索和分析引擎，并能够处理大规模数据集和高

Elasticsearch 为什么搜索怎么快

Elasticsearch之所以能够提供快速搜索的能力，主要归功于以下几个方面：

倒排索引（Inverted Index）： Elasticsearch使用倒排索引来加速搜索操作。倒排索引是一种数据结构，它将每个出现的词都与包含该词的文档进行关联。这种索引结构使得搜索时无需扫描所有文档，而是可以直接定位到包含查询词的文档。这极大地提高了搜索的效率，尤其是在大规模数据集中进行搜索时。
分布式架构和并行查询： Elasticsearch的分布式架构允许将索引数据分散到多个节点上，同时查询可以分发到并行处理。这样可以利用集群中多个节点的计算和存储资源来加速搜索操作，提高查询的吞吐量。而且，通过将查询负载均匀分布到不同的节点上，可以快速响应大规模并发查询。
搜索引擎优化算法： Elasticsearch内部实现了各种搜索引擎优化算法，以提供高效的搜索体验。例如，它使用了布尔查询、短语匹配、模糊搜索、通配符和正则表达式查询等多种查询方式，以满足不同的搜索需求。此外，Elasticsearch还提供了相关性评分、权重调整和搜索建议等功能，以提高搜索结果的准确性和实用性。
缓存机制： Elasticsearch通过缓存机制对经常进行的查询进行缓存，以避免重复计算和加速请求响应。它通过缓存查询结果、过滤器和聚合结果等来提高搜索性能。缓存可以减少磁盘I/O并且减少计算开销，从而加快搜索速度。
近实时（Near Real-Time）搜索： Elasticsearch具有近实时搜索的能力，这意味着一旦索引数据发生变化，搜索结果几乎立即就可以反映出来。这得益于Elasticsearch采用了分布式提交和段合并等技术，使得索引的更新操作能够迅速生效，从而提供了快速、实时的搜索体验。

综上所述，Elasticsearch通过倒排索引、分布式架构、并行查询、搜索引擎优化算法、缓存机制和近实时搜索等手段，实现了快速的搜索能力。这使得它成为处理大规模数据集和高并发搜索的理

Elasticsearch是怎么搜索数据的

Elasticsearch使用倒排索引（Inverted Index）的搜索引擎原理来进行数据搜索。倒排索引是一种将文档中的各个词项映射到其所在文档的数据结构。

下面是Elasticsearch搜索数据的基本原理：

索引构建： 在索引创建或更新数据时，Elasticsearch会对文档中的字段进行分词和标准化处理，并构建倒排索引。对于每个分词后的词项，倒排索引记录了该词项所出现的文档和位置信息。
查询解析和分析： 当执行搜索查询时，Elasticsearch首先解析查询语句，将查询拆解为各个查询片段和参数。然后，分析器对查询语句进行类似于索引构建时的分词和标准化处理，以便与索引中的词项进行匹配。
词项匹配： Elasticsearch使用倒排索引来查找包含查询中的每个词项的文档。倒排索引能够快速定位包含指定词项的文档ID。
评分计算： 当匹配到文档后，Elasticsearch使用各种信息（如词频、文档长度等）计算每个文档与查询的相关性得分。相关性得分用于排序，使得与查询最匹配的文档排在前面。
返回结果： 搜索完成后，Elasticsearch将根据排序得分和其他选项，返回与查询匹配的文档结果集。结果可以包括完整的文档内容，也可以只返回部分字段。

Elasticsearch通过使用倒排索引结构和相关性评分等技术，实现了高效的文本搜索和灵活的查询功能。它还支持分布式架构，可以将数据划分到多个节点上进行并行处理，从而提高搜索性能和可扩展性。

elasticsearch 的master选举流程

Elasticsearch的选主是ZenDiscovery模块负责的，主要包含Ping（节点之间通过这个RPC来发现彼此）和Unicast（单播模块包含一个主机列表以控制哪些节点需要ping通）这两部分；
对所有可以成为master的节点（node.master: true）根据nodeId字典排序，每次选举每个节点都把自己所知道节点排一次序，然后选出第一个（第0位）节点，暂且认为它是master节点。
如果对某个节点的投票数达到一定的值（可以成为master节点数n/2+1）并且该节点自己也选举自己，那这个节点就是master。否则重新选举一直到满足上述条件。
补充：master节点的职责主要包括集群、节点和索引的管理，不负责文档级别的管理；data节点可以关闭http功能*。