数据结构与算法之字典树trie
字典树,英文名Trie树,Trie一词来自retrieve,发音为/tri:/ “tree”,也有人读为/traɪ/ “try”, 又称单词查找树 或 前缀树,Trie树,是一种树形结构(多叉树)。
trie,又称为前缀树或字典树,是一种有序树,用于保存关联数组。
- 除根节点不包含字符,每个节点都包含一个字符
- 从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串
- 每个节点的所有子节点包含的字符都不相同(保证每个节点对应的字符串都不一样)
比如:
/ \ / | \ t a i / \ \ o e n /|\ / a d n n
上面的Trie树,可以表示字符串集合{“a”, “to”, “tea”, “ted”, “ten”, “i”, “in”, “inn”} 。
trie树把每个关键字保存在一条路径上,而不是一个节点中
两个有公共前缀的关键字,在Trie树中前缀部分的路径相同,所以Trie树又叫做前缀树(Prefix Tree)。
trie 优缺点
它的优点是:
- 插入和查询的效率很高,都是O(m),其中 m 是待插入/查询的字符串的长度
- Trie树可以对关键字按字典序排序
- 利用字符串的公共前缀来最大限度地减少无谓的字符串比较,提高查询效率
- 更多技术文章、面试资料、工具教程,还请移步:http://www.javatiku.cn/
缺点:
- trie 树比较费内存空间,在处理大数据时会内存吃紧
- 当hash函数较好时,Hash查询效率比 trie 更优
DATrie 是使用python实现的双数组trie树,双数组可以减少内存的使用量 。
trie应用
典型应用是:前缀查询,字符串查询,排序
- 用于统计,排序和保存大量的字符串(但不仅限于字符串)
- 经常被搜索引擎系统用于文本词频统计
- 排序大量字符串
- 用于索引结构
- 敏感词过滤
实际应用问题
1、给你100000个长度不超过10的单词。对于每一个单词,我们要判断他出没出现过,如果出现了,求第一次出现在第几个位置
分析思路一:trie树 ,找到这个字符串查询操作就可以了,如何知道出现的第一个位置呢?我们可以在trie树中加一个字段来记录当前字符串第一次出现的位置。
2、已知n个由小写字母构成的平均长度为10的单词,判断其中是否存在某个串为另一个串的前缀子串
3、给出N 个单词组成的熟词表,以及一篇全用小写英文书写的文章,请你按最早出现的顺序写出所有不在熟词表中的生词。
分析:trie树查询单词的应用。先建立N个熟词的前缀树,然后按文章的单词一次查询。
4、给出一个词典,其中的单词为不良单词。单词均为小写字母。再给出一段文本,文本的每一行也由小写字母构成。判断文本中是否含有任何不良单词。例如,若rob是不良单词,那么文本problem含有不良单词。 分析:先用不良单词建立trie树,然后过滤文本(每个单词都在trie树上查询,查询的复杂度O(1),效率非常高),这正是敏感词过滤系统(或垃圾评论系统)的原理。
5、给你N 个互不相同的仅由一个单词构成的英文名,让你将它们按字典序从小到大排序输出 分析:这是trie树排序的典型应用,建立N个单词的trie树,然后线序遍历整个树,就可以达到效果。
6、更多技术文章、面试资料、工具教程,还请移步:http://www.javatiku.cn/
trie树存储结构和基本操作
最简单实现 ---- 26个字母表 a-z (没有考虑数字,大小写,其他字符如 =-*/)
trie 树存储结构
- 用数组存储,浪费空间;如果系统中存在大量字符串,且这些字符串基本没有公共前缀,trie树将消耗大量内存
- 用链表存储,查询时需要遍历链表,查询效率有所降低
define ALPHABET_NUM 26 typedef struct trie_node{ char value; bool isKey;/*是否代表一个关键字*/ int count; /*可用于词频统计,表示关键字出现的次数*/ struct Node *subTries[ALPHABET]; }*Trie Trie Trie_create(); int Trie_insert(Trie trie,char *word); // 插入一个单词 int Trie_search(Trie trie,char *word);// 查找一个单词 int Trie_delete(Trie trie,char *word);// 删除一个单词 Trie Trie_create(){ trie_node* pNode = new trie_node(); pNode->count = 0; for(int i=0; i<ALPHABET_SIZE; ++i) pNode->children[i] = NULL; return pNode; } void trie_insert(trie root, char* key) { trie_node* node = root; char* p = key; while(*p) { if(node->children[*p-'a'] == NULL) { node->children[*p-'a'] = create_trie_node(); } node = node->children[*p-'a']; ++p; } node->count += 1; } /** * 查询:不存在返回0,存在返回出现的次数 */ int trie_search(trie root, char* key) { trie_node* node = root; char* p = key; while(*p && node!=NULL) { node = node->children[*p-'a']; ++p; } if(node == NULL) return 0; else return node->count; }
trie树的增加和删除都比较麻烦,但索引本身就是写少读多,是否考虑添加删除的复杂度上升,依靠具体场景决定。
#算法##学习路径#