2021-11-03 19:04 已编辑后端

关注

HashMap的源码阅读

HashMap的继承结构

首先了解HashMap之前，先看看HashMap的具体继承结构：

可以看到一个类叫做AbstractMap，这显然是个抽象类，通过继承这个抽象类，可以写出不同特性的map.

我们看看最顶层的Map接口：

Map 接口主要是用于保存具有映射关系的数据：key 和 value

Map中的 key用 Set来存储， set是无序不可重复。因此同一个 Map 对象所对应的类，必须重写 hashCode 和 equals 方法。

Map接口中的key与value都可以是任何引用类型的数据，并且它们之间是一对一的关系，因此通过指定的 key 一定能找到唯一的、确定的value

聊完了HashMap的继承结构和Map接口，可以暂时对HashMap有个基本印象，那么现在来聊聊hashmap。

HashMap的基本原理：

HashMap将键的Hash值映射到内存地址，所以我们可以通过key获得val。也就是说HashMao是通过键的Hash值来决定对应值的存储位置的，这样得到值会特别的迅速。

HashMap的数据结构：

其实我们所说的哈希表也就是一个Node数组，不过这个Node会存储（key，val）键值对。但是我们知道Hash表会有一个散列函数。

散列函数，顾名思义，它是⼀个函数。我们可以把它定义成hash(key)，其中key表示元素的键值，hash(key)的值表示经过散列函数计算得到的散列值。

这个函数一定会发生冲突！所以我们得有解决冲突的方案！

在JDK1.8之前，HashMap用的是List+数组实现HashMap，具体思想就是当发生了哈希碰撞，就将冲突的元素通过链表接到用散列函数算出的位置。

但是在JDK1.8后，HashMap加入了一种新的数据结构叫做红黑树，并且规定当map中元素>64且发生冲突的位置链表长度到达了阈值8，就会将链表树化。

为什么要这样做？

如果Map中冲突的元素用链表保存，用get取值的时候，会先定位到Node数组的一个具体位置，再遍历链表查找，这个查找的时间复杂度是O(n)，而树结构的查找时间复杂度为O(logn)。当数据增多，链表的查询会出现性能问题，所以会将其替换为红黑树。

那加入remove掉了几个之后，小于了阈值8，还一直是红黑树吗。

HashMap源码中有一个属性指定了退化为链表的数字为6！所以只要remove到树节点<6了，就会退化回去。

空口无凭，看看HashMap的属性！

public class HashMap<K,V> extends AbstractMap<K,V>
    implements Map<K,V>, Cloneable, Serializable {

	//序列号
    private static final long serialVersionUID = 362498820763181265L;
    
    //默认容量为2^4
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

   	//最大容量为2^30
    static final int MAXIMUM_CAPACITY = 1 << 30;

  	//默认负载因子 负载因子*容量=threshold
    static final float DEFAULT_LOAD_FACTOR = 0.75f;

   	//超过8就红黑树化的threshold
    static final int TREEIFY_THRESHOLD = 8;
    
    //小于6就退化为链表
    static final int UNTREEIFY_THRESHOLD = 6;
    
    //Map总共的节点数得大于64才树化
    static final int MIN_TREEIFY_CAPACITY = 64;
    
    //Node数组
    transient Node<K,V>[] table;

    //用来放缓存
    transient Set<Map.Entry<K,V>> entrySet;

   	//HashMap中储存的数量
    transient int size;

	//HashMap的修改次数
    transient int modCount;

  	//负载因子
    final float loadFactor;

从注释上看，就知道上面说的并不是臆想出来的，而是规定的！

既然研究的是HashMap，HashMap最原始就是个数组而已，那就看看数组里放的Node是什么

 static class Node<K,V> implements Map.Entry<K,V> {
    	//hash值
        final int hash;
        //键值
     	final K key;
     	//Val
        V value;
     	//链表用
        Node<K,V> next;
		//一个构造函数
        Node(int hash, K key, V value, Node<K,V> next) {
            this.hash = hash;
            this.key = key;
            this.value = value;
            this.next = next;
        }

        public final K getKey()        { return key; }
        public final V getValue()      { return value; }
        public final String toString() { return key + "=" + value; }

     	
        public final int hashCode() {
            return Objects.hashCode(key) ^ Objects.hashCode(value);
        }

        public final V setValue(V newValue) {
            V oldValue = value;
            value = newValue;
            return oldValue;
        }

     	// 判断两个node是否相等,若key和value都相等，则返回true. 可以与自身比较为true 
        public final boolean equals(Object o) {
            if (o == this)
                return true;
            if (o instanceof Map.Entry) {
                Map.Entry<?,?> e = (Map.Entry<?,?>)o;
                if (Objects.equals(key, e.getKey()) &&
                    Objects.equals(value, e.getValue()))
                    return true;
            }
            return false;
        }
    }

从源码里面可以看出，Node是 HashMap 中的一个静态内部类，Node是单向链表，它实现了Map.Entry接口，哈希表中的每一个节点都是 Node 类型。我们可以看到，Node 类中有 4 个属性，其中除了 key 和 value 之外，还有 hash 和 next 两个属性。hash 是用来存储 key 的哈希值的，next 是单向链表用来指向下一个节点。

奇怪了，我们知道红黑树虽然不是我们熟知的二叉树，但是应该会有left，right，parent这些属性才对，但是在Node中我们并没有看到，我们继续看看Tree的节点在哪里呢？

static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
     TreeNode<K,V> parent;  // 父节点
     TreeNode<K,V> left;  // 左子树
     TreeNode<K,V> right;  // 右子树
     TreeNode<K,V> prev;    // needed to unlink next upon deletion 
     boolean red; // 颜色
     TreeNode(int hash, K key, V val, Node<K,V> next) {
         super(hash, key, val, next);
     }

     /**
      * Returns root of tree containing this node.
      */
	 // 返回当前节点的根节点 
     final TreeNode<K,V> root() {
         for (TreeNode<K,V> r = this, p;;) {
             if ((p = r.parent) == null)
                 return r;
             r = p;
         }
     }

也是一个内部静态类，其中有一个代表颜色的boolean属性。

红黑树的主要特点：红黑树是一种近似平衡的二叉查找树，其主要的优点就是“平衡“，即左右子树高度几乎一致，以此来防止树退化为链表，通过这种方式来保障查找的时间复杂度为 log(n)

HashMap的构造器

大概看完了，HashMap的一些数据结构构成，看下HashMap自己本身的构造方法吧！

	//一、
	public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }
	//二、
 	public HashMap(int initialCapacity) {
        this(initialCapacity, DEFAULT_LOAD_FACTOR);
    }
	//三、
 	public HashMap() {
        this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
    }
	//四、
	public HashMap(Map<? extends K, ? extends V> m) {
        this.loadFactor = DEFAULT_LOAD_FACTOR;
        putMapEntries(m, false);
    }

一构造器、

常规的判断错误，如果初始化容量给的是负数则报错，若超过了HashMap规定的MAXIMUM_CAPACITY就给他最大容量，最后设置负载因子和扩容时的threshold。

这里有个tableSizeFor方法，为什么不直接用initialCapacity作为threshold呢？

static final int tableSizeFor(int cap) {
        int n = cap - 1;
        n |= n >>> 1;
        n |= n >>> 2;
        n |= n >>> 4;
        n |= n >>> 8;
        n |= n >>> 16;
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}

这个方法会算出大于传入的cap的最近的一个2的次方的数字，比如你传一个9，里9最近的就是2^4.

主要就是理解n |= n >>>1 。。。。。

（程序员囧辉的图）

相信你应该看出来，这5个公式会通过最高位的1，拿到2个1、4个1、8个1、16个1、32个1。当然，有多少个1，取决于我们的入参有多大，但我们肯定的是经过这5个计算，得到的值是一个低位全是1的值，最后返回的时候 +1，则会得到1个比n 大的 2 的N次方。再看开头的-1操作，就是为了避免一开始就是2的n次方的情况。

通过这个计算，我们可以引出另一个HashMap容量的限制，容量必须为2^n，为什么？

这个得看putVal方法，我们就可以知道，是怎么计算HashMap数组中下标的了。

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            n = (tab = resize()).length;
    	//注意这里 下标= i = (n - 1) & hash
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

n - 1 & hash:

当我们的n（此时map的容量）是2的n次方时，给他-1，就会得到一个低位全为1的数，我们的hash和他相与就相当于取模，大于低位的全被舍弃了。

之后看看hash方法

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

可以发现是拿到 key 的 hashCode，并将 hashCode 的高16位和 hashCode 进行异或运算，得到最终的 hash 值。

为什么要右移，让高位参与运算，因为在table较小的时候，n & hash只会让低位参加运算，这样会让hash不只取决于低位！

二、有一个初始容量参数的构造方法 HashMap(int initialCapacity)

参数中传入初始容量，通过默认负载因子构造一个空的HashMap.

三、无参构造方法 HashMap()

使用默认的加载因子0.75和默认初始容量16，来构造一个空的HashMap。

四、有Map类型的参数的构造方法

根据Map接口初始化一个新的HashMap，该HashMap拥有着和原Map中相同的映射关系，使用默认的初始容量和默认的载因子

HashMap的重要方法（putVal，resize）

咱们看完了构造方法之后发现一个问题，为啥没有Node数组的初始化，这个时候就开始怀疑，这个数组是否为懒加载（第一次操作数组的时候才会初始化），看到putVal方法。

发现当tab==null，就会resize了，这个也是我们后面扩容所用的方法。先详细看看putVal方法吧，这个方法后面再说

final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
                   boolean evict) {
        Node<K,V>[] tab; Node<K,V> p; int n, i;
        if ((tab = table) == null || (n = tab.length) == 0)
            //注意这里的resize
            n = (tab = resize()).length;
        if ((p = tab[i = (n - 1) & hash]) == null)
            tab[i] = newNode(hash, key, value, null);
        else {
            Node<K,V> e; K k;
            if (p.hash == hash &&
                ((k = p.key) == key || (key != null && key.equals(k))))
                e = p;
            else if (p instanceof TreeNode)
                e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
            else {
                for (int binCount = 0; ; ++binCount) {
                    if ((e = p.next) == null) {
                        p.next = newNode(hash, key, value, null);
                        if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
                            treeifyBin(tab, hash);
                        break;
                    }
                    if (e.hash == hash &&
                        ((k = e.key) == key || (key != null && key.equals(k))))
                        break;
                    p = e;
                }
            }
            if (e != null) { // existing mapping for key
                V oldValue = e.value;
                if (!onlyIfAbsent || oldValue == null)
                    e.value = value;
                afterNodeAccess(e);
                return oldValue;
            }
        }
        ++modCount;
        if (++size > threshold)
            resize();
        afterNodeInsertion(evict);
        return null;
    }

putVal所做的操作：

①先判断table是否为空，若为空，先resize再说。并且将初始化后数组的长度赋值给n

②通过上面讲过的n - 1 & hash算出的下标，判断下标当前有无元素，没有元素直接放即可。并将索引赋给i，当前元素赋给p

③当p!=null时处理哈希碰撞，如果p的key和传入的key相等且hash值相等直接覆盖

④如果p此时是TreeNode（我们上面说过，链表元素和树节点的类并不相同），调用putTreeVal方法，找到在树中放的位置

⑤不是的话，只能是链表了，那么我们遍历链表直到尾部（p.next = null），之后将节点放到链表尾部，如果put了这个节点到了树化的阈值

还得转换为红黑树，同样的如果在遍历链表的过程中找到了重复的元素则会先break出循环，然后直接替换并且返回旧值。

⑥为hashMap的modeCount(修改次数)+1

⑦put完了之后是否需要扩容？

现在来看看resize()方法吧

final Node<K,V>[] resize() {
		//将当前的table用一个oldTab记录
        Node<K,V>[] oldTab = table;
    	//记录旧table的容量，如果还没有初始化则为0,
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
    	//将table的阈值赋给oldThr
        int oldThr = threshold;
    	//为扩容产生的新容器做准备(初始化)
        int newCap, newThr = 0;
    	//开始对旧容器大小进行增加，完成扩容的目的
        if (oldCap > 0) {
            //旧的容器大小是否已经达到最大，若最大则无法扩容只能让他容器大小变成2^30
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                //返回旧容器
                return oldTab;
            }
            //否则将容器的容量X2
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                //new的阈值也X2
                newThr = oldThr << 1; // double threshold
        }
        else if (oldThr > 0) // initial capacity was placed in threshold
            //将原阈值赋给容量
            newCap = oldThr;
        else {
            // zero initial threshold signifies using defaults
            //还没初始化，直接给默认值即可
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
    	//若阈值为0，也对初始阈值赋值 = newCap * loadFactor
        if (newThr == 0) {
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;
    	// 创建一个容量为newCap的table
        @SuppressWarnings({"rawtypes","unchecked"})
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    	//将hashmap的table替换为扩容后table
        table = newTab;
        if (oldTab != null) {
            for (int j = 0; j < oldCap; ++j) {
                //遍历oldtable中的元素，并且计算新的位置
                Node<K,V> e;
                if ((e = oldTab[j]) != null) {
                    oldTab[j] = null;
                    //这里表示链表上只有一个节点，无序遍历下去，直接将该节点重新计算插入即可
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e;
                    //如果是通过红黑树来处理冲突的，则调用相关方法把树分离开  
                    else if (e instanceof TreeNode)
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    else { 
                        
                       	//若是链表
                        //存未移位的数组
                        Node<K,V> loHead = null, loTail = null;
                        //存未移位的数组
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            //判断条件
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

其他的不去深究，咱们来重点看看，链表中的扩容机制，一看就是两个不知姓名的数组。没事，其实我们仔细想想hashmap的数组下标计算规则，我们就会发现在putVal方法中，我们是通过(n - 1 & e.hash)算出来的，那么问题来了，这个n不是我们的容量吗？但是此时我们已经是扩容后的状态了，那这个计算是不是得变成((2*n - 1) & e.hash)呢？我们知道n-1& e.hash无非是在取模，就算咱们的容量大了，主要还是得看咱们的hash，比如这种情况：

hash : 01111

n - 1:16 - 1 = 15 = 1111

那他们两个&运算后得到的是啥？不是1111吗，那就算咱们的n扩容成2倍

n - 1:16*2 - 1 = 31 = 11111111

n & hash 不还是1111吗，主要是看什么？是看咱们n-1化为二进制的后一位是为0还是1

那这个时候看看上面的if判断 if ((e.hash & oldCap) == 0)

oldCap是什么？ oldCap不是16吗？ 16的二进制是多少？不是10000吗？1这个位置是在哪里？不就是n-1化为二进制的后一位吗？

我们让他和hash与预算，不就可以知道咱们n-1化为二进制的后一位是为0还是1了吗？

那么是不是就可以确定他是要加上我们扩容了的那个n还是不移动直接插入呢？

这就是为什么，我们需要两个数组，一个记录if ((e.hash & oldCap) == 0) 一个记录 if ((e.hash & oldCap) != 0) 的原因，最后将链表遍历完了

扩容随之完成！