HashMap的源码阅读

HashMap的继承结构

首先了解HashMap之前,先看看HashMap的具体继承结构

img

可以看到一个类叫做AbstractMap,这显然是个抽象类,通过继承这个抽象类,可以写出不同特性的map.

我们看看最顶层的Map接口:

Map 接口主要是用于保存具有映射关系的数据:key 和 value

Map中的 key用 Set来存储, set是无序不可重复。因此同一个 Map 对象所对应的类,必须重写 hashCode 和 equals 方法。

Map接口中的key与value都可以是任何引用类型的数据,并且它们之间是一对一的关系,因此通过指定的 key 一定能找到唯一的、确定的value

聊完了HashMap的继承结构和Map接口,可以暂时对HashMap有个基本印象,那么现在来聊聊hashmap。

HashMap的基本原理:

HashMap将键的Hash值映射到内存地址,所以我们可以通过key获得val。也就是说HashMao是通过键的Hash值来决定对应值的存储位置的,这样得到值会特别的迅速。

HashMap的数据结构:

其实我们所说的哈希表也就是一个Node数组,不过这个Node会存储(key,val)键值对。但是我们知道Hash表会有一个散列函数。

散列函数,顾名思义,它是⼀个函数。我们可以把它定义成hash(key),其中key表示元素的键 值,hash(key)的值表示经过散列函数计算得到的散列值。

这个函数一定会发生冲突!所以我们得有解决冲突的方案!

在JDK1.8之前,HashMap用的是List+数组实现HashMap,具体思想就是当发生了哈希碰撞,就将冲突的元素通过链表接到用散列函数算出的位置。

img

但是在JDK1.8后,HashMap加入了一种新的数据结构叫做红黑树,并且规定当map中元素>64且发生冲突的位置链表长度到达了阈值8,就会将链表树化。

img

为什么要这样做?

如果Map中冲突的元素用链表保存,用get取值的时候,会先定位到Node数组的一个具体位置,再遍历链表查找,这个查找的时间复杂度是O(n),而树结构的查找时间复杂度为O(logn)。当数据增多,链表的查询会出现性能问题,所以会将其替换为红黑树。

那加入remove掉了几个之后,小于了阈值8,还一直是红黑树吗。

HashMap源码中有一个属性指定了退化为链表的数字为6!所以只要remove到树节点<6了,就会退化回去。

空口无凭,看看HashMap的属性!

public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable {

	//序列号
    private static final long serialVersionUID = 362498820763181265L;
    
    //默认容量为2^4
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

   	//最大容量为2^30
    static final int MAXIMUM_CAPACITY = 1 << 30;

  	//默认负载因子 负载因子*容量=threshold
    static final float DEFAULT_LOAD_FACTOR = 0.75f;

   	//超过8就红黑树化的threshold
    static final int TREEIFY_THRESHOLD = 8;
    
    //小于6就退化为链表
    static final int UNTREEIFY_THRESHOLD = 6;
    
    //Map总共的节点数得大于64才树化
    static final int MIN_TREEIFY_CAPACITY = 64;
    
    //Node数组
    transient Node<K,V>[] table;

    //用来放缓存
    transient Set<Map.Entry<K,V>> entrySet;

   	//HashMap中储存的数量
    transient int size;

	//HashMap的修改次数
    transient int modCount;

  	//负载因子
    final float loadFactor;

从注释上看,就知道上面说的并不是臆想出来的,而是规定的!

既然研究的是HashMap,HashMap最原始就是个数组而已,那就看看数组里放的Node是什么

 static class Node<K,V> implements Map.Entry<K,V> {
    	//hash值
        final int hash;
        //键值
     	final K key;
     	//Val
        V value;
     	//链表用
        Node<K,V> next;
		//一个构造函数
        Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }

        public final K getKey()        { return key; }
        public final V getValue()      { return value; }
        public final String toString() { return key + "=" + value; }

     	
        public final int hashCode() {
            return Objects.hashCode(key) ^ Objects.hashCode(value);
        }

        public final V setValue(V newValue) {
            V oldValue = value;
            value = newValue;
            return oldValue;
        }

     	// 判断两个node是否相等,若key和value都相等,则返回true. 可以与自身比较为true 
        public final boolean equals(Object o) {
            if (o == this)
                return true;
            if (o instanceof Map.Entry) {
                Map.Entry<?,?> e = (Map.Entry<?,?>)o;
                if (Objects.equals(key, e.getKey()) &&
                    Objects.equals(value, e.getValue()))
                    return true;
            }
            return false;
        }
    }

   

从源码里面可以看出,Node是 HashMap 中的一个静态内部类,Node是单向链表,它实现了Map.Entry接口,哈希表中的每一个节点都是 Node 类型。我们可以看到,Node 类中有 4 个属性,其中除了 key 和 value 之外,还有 hash 和 next 两个属性。hash 是用来存储 key 的哈希值的,next 是单向链表用来指向下一个节点。

奇怪了,我们知道红黑树虽然不是我们熟知的二叉树,但是应该会有left,right,parent这些属性才对,但是在Node中我们并没有看到,我们继续看看Tree的节点在哪里呢?

static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
     TreeNode<K,V> parent;  // 父节点
     TreeNode<K,V> left;  // 左子树
     TreeNode<K,V> right;  // 右子树
     TreeNode<K,V> prev;    // needed to unlink next upon deletion 
     boolean red; // 颜色
     TreeNode(int hash, K key, V val, Node<K,V> next) {
         super(hash, key, val, next);
     }

     /**
      * Returns root of tree containing this node.
      */
	 // 返回当前节点的根节点 
     final TreeNode<K,V> root() {
         for (TreeNode<K,V> r = this, p;;) {
             if ((p = r.parent) == null)
                 return r;
             r = p;
         }
     }

也是一个内部静态类,其中有一个代表颜色的boolean属性。

红黑树的主要特点:红黑树是一种近似平衡的二叉查找树,其主要的优点就是“平衡“,即左右子树高度几乎一致,以此来防止树退化为链表,通过这种方式来保障查找的时间复杂度为 log(n)

img

HashMap的构造器

大概看完了,HashMap的一些数据结构构成,看下HashMap自己本身的构造方法吧!

	//一、
	public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }
	//二、
 	public HashMap(int initialCapacity) {
        this(initialCapacity, DEFAULT_LOAD_FACTOR);
    }
	//三、
 	public HashMap() {
        this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
    }
	//四、
	public HashMap(Map<? extends K, ? extends V> m) {
        this.loadFactor = DEFAULT_LOAD_FACTOR;
        putMapEntries(m, false);
    }

一构造器、

常规的判断错误,如果初始化容量给的是负数则报错,若超过了HashMap规定的MAXIMUM_CAPACITY就给他最大容量,最后设置负载因子和扩容时的threshold。

这里有个tableSizeFor方法,为什么不直接用initialCapacity作为threshold呢?

static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

这个方法会算出大于传入的cap的最近的一个2的次方的数字,比如你传一个9,里9最近的就是2^4.

主要就是理解n |= n >>>1 。。。。。

img

(程序员囧辉的图)

相信你应该看出来,这5个公式会通过最高位的1,拿到2个1、4个1、8个1、16个1、32个1。当然,有多少个1,取决于我们的入参有多大,但我们肯定的是经过这5个计算,得到的值是一个低位全是1的值,最后返回的时候 +1,则会得到1个比n 大的 2 的N次方。再看开头的-1操作,就是为了避免一开始就是2的n次方的情况。

通过这个计算,我们可以引出另一个HashMap容量的限制,容量必须为2^n,为什么?

这个得看putVal方法,我们就可以知道,是怎么计算HashMap数组中下标的了。

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
    	//注意这里 下标= i = (n - 1) & hash
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

n - 1 & hash:

当我们的n(此时map的容量)是2的n次方时,给他-1,就会得到一个低位全为1的数,我们的hash和他相与就相当于取模,大于低位的全被舍弃了。

之后看看hash方法

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

可以发现是拿到 key 的 hashCode,并将 hashCode 的高16位和 hashCode 进行异或运算,得到最终的 hash 值。

为什么要右移,让高位参与运算,因为在table较小的时候,n & hash只会让低位参加运算,这样会让hash不只取决于低位!

二、有一个初始容量参数的构造方法 HashMap(int initialCapacity)

参数中传入初始容量,通过默认负载因子构造一个空的HashMap.

三、无参构造方法 HashMap()

使用默认的加载因子0.75和默认初始容量16,来构造一个空的HashMap。

四、 有Map类型的参数的构造方法

根据Map接口初始化一个新的HashMap,该HashMap拥有着和原Map中相同的映射关系,使用默认的初始容量和默认的载因子

HashMap的重要方法(putVal,resize)

咱们看完了构造方法之后发现一个问题,为啥没有Node数组的初始化,这个时候就开始怀疑,这个数组是否为懒加载(第一次操作数组的时候才会初始化),看到putVal方法。

发现当tab==null,就会resize了,这个也是我们后面扩容所用的方法。先详细看看putVal方法吧,这个方法后面再说

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            //注意这里的resize
            n = (tab = resize()).length;
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

putVal所做的操作:

①先判断table是否为空,若为空,先resize再说。并且将初始化后数组的长度赋值给n

②通过上面讲过的n - 1 & hash算出的下标,判断下标当前有无元素,没有元素直接放即可。并将索引赋给i,当前元素赋给p

③当p!=null时处理哈希碰撞,如果p的key和传入的key相等且hash值相等直接覆盖

④如果p此时是TreeNode(我们上面说过,链表元素和树节点的类并不相同),调用putTreeVal方法,找到在树中放的位置

⑤不是的话,只能是链表了,那么我们遍历链表直到尾部(p.next = null),之后将节点放到链表尾部,如果put了这个节点到了树化的阈值

还得转换为红黑树,同样的如果在遍历链表的过程中找到了重复的元素则会先break出循环,然后直接替换并且返回旧值。

⑥为hashMap的modeCount(修改次数)+1

⑦put完了之后是否需要扩容?

现在来看看resize()方法吧

final Node<K,V>[] resize() {
		//将当前的table用一个oldTab记录
        Node<K,V>[] oldTab = table;
    	//记录旧table的容量,如果还没有初始化则为0,
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
    	//将table的阈值赋给oldThr
        int oldThr = threshold;
    	//为扩容产生的新容器做准备(初始化)
        int newCap, newThr = 0;
    	//开始对旧容器大小进行增加,完成扩容的目的
        if (oldCap > 0) {
            //旧的容器大小是否已经达到最大,若最大则无法扩容只能让他容器大小变成2^30
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                //返回旧容器
                return oldTab;
            }
            //否则将容器的容量X2
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                //new的阈值也X2
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) // initial capacity was placed in threshold
            //将原阈值赋给容量
            newCap = oldThr;
        else {
            // zero initial threshold signifies using defaults
            //还没初始化,直接给默认值即可
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
    	//若阈值为0,也对初始阈值赋值 = newCap * loadFactor
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;
    	// 创建一个容量为newCap的table
        @SuppressWarnings({"rawtypes","unchecked"})
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    	//将hashmap的table替换为扩容后table
        table = newTab;
        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {
                //遍历oldtable中的元素,并且计算新的位置
                Node<K,V> e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    //这里表示链表上只有一个节点,无序遍历下去,直接将该节点重新计算插入即可
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e;
                    //如果是通过红黑树来处理冲突的,则调用相关方法把树分离开  
                    else if (e instanceof TreeNode)
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else { 
                        
                       	//若是链表
                        //存未移位的数组
                        Node<K,V> loHead = null, loTail = null;
                        //存未移位的数组
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            //判断条件
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

其他的不去深究,咱们来重点看看,链表中的扩容机制,一看就是两个不知姓名的数组。没事,其实我们仔细想想hashmap的数组下标计算规则,我们就会发现在putVal方法中,我们是通过(n - 1 & e.hash)算出来的,那么问题来了,这个n不是我们的容量吗?但是此时我们已经是扩容后的状态了,那这个计算是不是得变成((2*n - 1) & e.hash)呢?我们知道n-1& e.hash无非是在取模,就算咱们的容量大了,主要还是得看咱们的hash,比如这种情况:

hash : 01111

n - 1:16 - 1 = 15 = 1111

那他们两个&运算后得到的是啥?不是1111吗,那就算咱们的n扩容成2倍

n - 1:16*2 - 1 = 31 = 11111111

n & hash 不还是1111吗,主要是看什么?是看咱们n-1化为二进制的后一位是为0还是1

那这个时候看看上面的if判断 if ((e.hash & oldCap) == 0)

oldCap是什么? oldCap不是16吗? 16的二进制是多少? 不是10000吗?1这个位置是在哪里?不就是n-1化为二进制的后一位吗?

我们让他和hash与预算,不就可以知道咱们n-1化为二进制的后一位是为0还是1了吗?

那么是不是就可以确定他是要加上我们扩容了的那个n还是不移动直接插入呢?

这就是为什么,我们需要两个数组,一个记录if ((e.hash & oldCap) == 0) 一个记录 if ((e.hash & oldCap) != 0) 的原因,最后将链表遍历完了

扩容随之完成!

感谢大家阅读我的HashMap源码阅读,借鉴了许多优秀博客的思想!在Java的道路上任重道远!

全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务