数据结构与算法 / 字符串匹配 / Trie 树
一、诞生原因
传统字符串比较时,需要将待比较的字符串与字符串集合中每一个串进行比较,结果比较浪费时间。
Trie 树的发明就是为了解决上述问题。
二、基本信息
又称字典树,是一种树形结构,是一种哈希树的变种。
三、原理
通过树形结构,将字符串集合中各个串的前缀统一为一个,这样每次查找串时相同的前缀的串仅需要比对同一个前缀就行了。
栗子:假如字符串集合中仅仅包含 26 个英文字母并且都为小写,那么该字符串集合组成的 Trie 树的部分如下图所示:
每个节点实际上是一个包含 26 个元素的数组,数组的索引是字符的 Ascii 码值 - a 字符的 Ascii 码值的差值,栗子:b - a = 98 - 97 = 1,这样就找到了 b 元素对应的下一个节点的 a 字符元素所在的节点。
上图中每一个(子节点 n),都是包含了 26 个元素的数组,每个元素有可能有子节点,有的有可能是 null,为 null 就说明当前的字符串到此为止。
根据上述说明可以知道,Trie 树查找是十分高效的,但是建 Trie 树是比较耗费时间的,并且相当耗费内存,是一个明显以空间换时间的策略。
四、时间复杂度
-
建 Trie 树的过程的时间复杂度为 O(n),n 为字符串集合中所有字符的数量,即:所有的字符串长度和。
-
匹配字符串的时间复杂度为 O(k),k 为待匹配的字符串的长度。
五、应用场景
搜索引擎中,输入部分的字符之后其下拉列表可以显示出以当前字符串为前缀的部分完整的字符串。其原理是后台早在之前就已经创建了 Trie 树,当用户输入了部分字符串前缀时,系统直接搜索 Trie 树,到达前缀最后的节点之后,将该节点之后字符串罗列出来就完成了上述功能。
(SAW:Game Over!)