数据结构-哈夫曼树及其应用
》哈夫曼树(Huffman Tree):最优树,带权路径长度最短的树。
-哈夫曼树的形态不是唯一的,但是带权路径长度WPL是唯一的。
-路径:从树中一结点到另一结点间的分支构成的两结点间的路径。
-路径长度:路径上的分支数目。
-树的路径长度:从树根到每一个叶子结点的路径长度之和。
-树的带权路径长度:树中所有叶子结点的带权路径长度之和。
-最优二叉树(哈夫曼树):带权路径长度WPL最小的二叉树。
其中w代表权值,l代表路径长度。
》构造哈夫曼树
(1)根据给定的n个权值{w1,w2,···,wn}构成n棵二叉树的集合F={T1,T2,···,Tn},其中每棵二叉树Ti中只有一个带权为wi的根结点,其左右子树均空。
(2)在F中选取两棵根结点的权值最小的树作为左右子树构造一棵新的二叉树,且置新的二叉树的根结点的权值为其左、右子树上根结点的权值之和。
(3)在F中删除这两棵树,同时将新得到的二叉树加入F中。
(4)重复(2)(3),直到F只含一棵树为止。这颗树就是哈夫曼树。
》哈夫曼编码
-思想:根据字符出现频率编码,使电文总长最短。
-编码:根据字符出现频率构造Huffman树,然后将树中结点引向其左孩子的分支标“0”,引向其右孩子的分支标“1”;每个字符的编码即为从根到每个叶子的路径上得到的0、1序列。
-译码:从Huffman树根开始,从待译码电文中逐位取码。若编码是“0”,则向左走;若编码是“1”,则向右走,一旦到达叶子结点,则译出一个字符;再重新从根出发,直到电文结束。
-前缀编码:若要设计长度不等的编码,则必须是任一字符的编码都不能是另一编码的前缀,这样可以避免二义性。
-编码方式对文件存储空间的影响
-最优前缀码:设文件字符集C={c1,c2,c3,…,cn},共n个字符。字符ci在文件中出现的频度为fi,编码长为li,则希望文件总长最短。
-没有度为1的结点,称为严格的二叉树
-哈夫曼树与哈夫曼编码的存储表示
typedef struct{
unsigned int weight;
unsigned int parent,lchild,rchild;
}HTNode,*HuffmanTree; //动态分配数组存储哈夫曼树
》二叉排序树(二叉查找树):
-二叉排序树或者是一棵空树,或者是具有如下性质的二叉树:若它的左子树非空,则左子树上所有结点的值均小于根结点;若它的右左子树非空,则右子树上所有结点的值均大于根结点;左、右子树本身又各是一棵二叉排序树。