您现在的位置是：亿华云 > 数据库

十张图说清Elasticsearch原理！

亿华云2025-10-03 15:58:05【数据库】5人已围观

简介说到 Elasticsearch，其中最明显的一个特点就是 near real-time 准实时，当文档存储在 Elasticsearch 中时，将在 1 秒内以几乎实时的方式对其进行索引和完全搜索。

说到 Elasticsearch，张图其中最明显的说清一个特点就是 near real-time 准实时，当文档存储在 Elasticsearch 中时，张图将在 1 秒内以几乎实时的说清方式对其进行索引和完全搜索。那为什么说 ES 是张图准实时的呢?

图片来自 Pexels

Lucene 和 ES

Lucene

Lucene 是 Elasticsearch所基于的 Java 库，它引入了按段搜索的说清概念：

Segment：也叫段，类似于倒排索引，张图相当于一个数据集。说清 Commit point：提交点，张图记录着所有已知的说清段。 Lucene index：“a collection of segments plus a commit point”。张图由一堆 Segment 的说清集合加上一个提交点组成。

对于一个 Lucene index 的张图组成，如下图所示：

一个 Elasticsearch Index 由一个或者多个 shard(分片)组成。说清

而 Lucene 中的张图 Lucene index 相当于 ES 的一个 shard。

写入过程

写入过程 1.0(不完善)

写入过程 1.0 如下：

不断将 Document 写入到 In-memory buffer(内存缓冲区)。当满足一定条件后内存缓冲区中的 Documents 刷新到磁盘。生成新的 segment 以及一个 Commit point 提交点。这个 segment 就可以像其他 segment 一样被读取了。服务器租用

画图如下：

将文件刷新到磁盘是非常耗费资源的，而且在内存缓冲区和磁盘中间存在一个高速缓存(cache)，一旦文件进入到 cache 就可以像磁盘上的 segment 一样被读取了。

写入过程 2.0

写入过程 2.0 如下：

不断将 Document 写入到 In-memory buffer(内存缓冲区)。当满足一定条件后内存缓冲区中的 Documents 刷新到高速缓存(cache)。生成新的 segment，这个 segment 还在 cache 中。这时候还没有 commit，但是已经可以被读取了。

画图如下：

数据从 buffer 到 cache 的过程是定期每秒刷新一次。所以新写入的 Document 最慢 1 秒就可以在 cache 中被搜索到。

而 Document 从 buffer 到 cache 的过程叫做 ?refresh。一般是 1 秒刷新一次，不需要进行额外修改。

当然，如果有修改的需要，可以参考文末的相关资料。这也就是为什么说 Elasticsearch 是准实时的源码下载。

使文档立即可见：

PUT /test/_doc/1?refresh { "test": "test"} // 或者 PUT /test/_doc/2?refresh=true { "test": "test"}

Translog 事务日志

此处可以联想 MySQL 的 binlog，ES 中也存在一个 translog 用来失败恢复：

Document 不断写入到 In-memory buffer，此时也会追加 translog。当 buffer 中的数据每秒 refresh 到 cache 中时，translog 并没有进入到刷新到磁盘，是持续追加的。 translog 每隔 5s 会 fsync 到磁盘。 translog 会继续累加变得越来越大，当 translog 大到一定程度或者每隔一段时间，会执行 flush。