HashMap的源码阅读
HashMap的继承结构
首先了解HashMap之前,先看看HashMap的具体继承结构:
可以看到一个类叫做AbstractMap,这显然是个抽象类,通过继承这个抽象类,可以写出不同特性的map.
我们看看最顶层的Map接口:
Map 接口主要是用于保存具有映射关系的数据:key 和 value
Map中的 key用 Set来存储, set是无序不可重复。因此同一个 Map 对象所对应的类,必须重写 hashCode 和 equals 方法。
Map接口中的key与value都可以是任何引用类型的数据,并且它们之间是一对一的关系,因此通过指定的 key 一定能找到唯一的、确定的value
聊完了HashMap的继承结构和Map接口,可以暂时对HashMap有个基本印象,那么现在来聊聊hashmap。
HashMap的基本原理:
HashMap将键的Hash值映射到内存地址,所以我们可以通过key获得val。也就是说HashMao是通过键的Hash值来决定对应值的存储位置的,这样得到值会特别的迅速。
HashMap的数据结构:
其实我们所说的哈希表也就是一个Node数组,不过这个Node会存储(key,val)键值对。但是我们知道Hash表会有一个散列函数。
散列函数,顾名思义,它是⼀个函数。我们可以把它定义成hash(key),其中key表示元素的键 值,hash(key)的值表示经过散列函数计算得到的散列值。
这个函数一定会发生冲突!所以我们得有解决冲突的方案!
在JDK1.8之前,HashMap用的是List+数组实现HashMap,具体思想就是当发生了哈希碰撞,就将冲突的元素通过链表接到用散列函数算出的位置。
但是在JDK1.8后,HashMap加入了一种新的数据结构叫做红黑树,并且规定当map中元素>64且发生冲突的位置链表长度到达了阈值8,就会将链表树化。
为什么要这样做?
如果Map中冲突的元素用链表保存,用get取值的时候,会先定位到Node数组的一个具体位置,再遍历链表查找,这个查找的时间复杂度是O(n),而树结构的查找时间复杂度为O(logn)。当数据增多,链表的查询会出现性能问题,所以会将其替换为红黑树。
那加入remove掉了几个之后,小于了阈值8,还一直是红黑树吗。
HashMap源码中有一个属性指定了退化为链表的数字为6!所以只要remove到树节点<6了,就会退化回去。
空口无凭,看看HashMap的属性!
public class HashMap<K,V> extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable {
//序列号
private static final long serialVersionUID = 362498820763181265L;
//默认容量为2^4
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
//最大容量为2^30
static final int MAXIMUM_CAPACITY = 1 << 30;
//默认负载因子 负载因子*容量=threshold
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//超过8就红黑树化的threshold
static final int TREEIFY_THRESHOLD = 8;
//小于6就退化为链表
static final int UNTREEIFY_THRESHOLD = 6;
//Map总共的节点数得大于64才树化
static final int MIN_TREEIFY_CAPACITY = 64;
//Node数组
transient Node<K,V>[] table;
//用来放缓存
transient Set<Map.Entry<K,V>> entrySet;
//HashMap中储存的数量
transient int size;
//HashMap的修改次数
transient int modCount;
//负载因子
final float loadFactor;
从注释上看,就知道上面说的并不是臆想出来的,而是规定的!
既然研究的是HashMap,HashMap最原始就是个数组而已,那就看看数组里放的Node是什么
static class Node<K,V> implements Map.Entry<K,V> {
//hash值
final int hash;
//键值
final K key;
//Val
V value;
//链表用
Node<K,V> next;
//一个构造函数
Node(int hash, K key, V value, Node<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
}
public final K getKey() { return key; }
public final V getValue() { return value; }
public final String toString() { return key + "=" + value; }
public final int hashCode() {
return Objects.hashCode(key) ^ Objects.hashCode(value);
}
public final V setValue(V newValue) {
V oldValue = value;
value = newValue;
return oldValue;
}
// 判断两个node是否相等,若key和value都相等,则返回true. 可以与自身比较为true
public final boolean equals(Object o) {
if (o == this)
return true;
if (o instanceof Map.Entry) {
Map.Entry<?,?> e = (Map.Entry<?,?>)o;
if (Objects.equals(key, e.getKey()) &&
Objects.equals(value, e.getValue()))
return true;
}
return false;
}
}
从源码里面可以看出,Node是 HashMap 中的一个静态内部类,Node是单向链表,它实现了Map.Entry接口,哈希表中的每一个节点都是 Node 类型。我们可以看到,Node 类中有 4 个属性,其中除了 key 和 value 之外,还有 hash 和 next 两个属性。hash 是用来存储 key 的哈希值的,next 是单向链表用来指向下一个节点。
奇怪了,我们知道红黑树虽然不是我们熟知的二叉树,但是应该会有left,right,parent这些属性才对,但是在Node中我们并没有看到,我们继续看看Tree的节点在哪里呢?
static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
TreeNode<K,V> parent; // 父节点
TreeNode<K,V> left; // 左子树
TreeNode<K,V> right; // 右子树
TreeNode<K,V> prev; // needed to unlink next upon deletion
boolean red; // 颜色
TreeNode(int hash, K key, V val, Node<K,V> next) {
super(hash, key, val, next);
}
/**
* Returns root of tree containing this node.
*/
// 返回当前节点的根节点
final TreeNode<K,V> root() {
for (TreeNode<K,V> r = this, p;;) {
if ((p = r.parent) == null)
return r;
r = p;
}
}
也是一个内部静态类,其中有一个代表颜色的boolean属性。
红黑树的主要特点:红黑树是一种近似平衡的二叉查找树,其主要的优点就是“平衡“,即左右子树高度几乎一致,以此来防止树退化为链表,通过这种方式来保障查找的时间复杂度为 log(n)
HashMap的构造器
大概看完了,HashMap的一些数据结构构成,看下HashMap自己本身的构造方法吧!
//一、
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
//二、
public HashMap(int initialCapacity) {
this(initialCapacity, DEFAULT_LOAD_FACTOR);
}
//三、
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}
//四、
public HashMap(Map<? extends K, ? extends V> m) {
this.loadFactor = DEFAULT_LOAD_FACTOR;
putMapEntries(m, false);
}
一构造器、
常规的判断错误,如果初始化容量给的是负数则报错,若超过了HashMap规定的MAXIMUM_CAPACITY就给他最大容量,最后设置负载因子和扩容时的threshold。
这里有个tableSizeFor方法,为什么不直接用initialCapacity作为threshold呢?
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
这个方法会算出大于传入的cap的最近的一个2的次方的数字,比如你传一个9,里9最近的就是2^4.
主要就是理解n |= n >>>1 。。。。。
(程序员囧辉的图)
相信你应该看出来,这5个公式会通过最高位的1,拿到2个1、4个1、8个1、16个1、32个1。当然,有多少个1,取决于我们的入参有多大,但我们肯定的是经过这5个计算,得到的值是一个低位全是1的值,最后返回的时候 +1,则会得到1个比n 大的 2 的N次方。再看开头的-1操作,就是为了避免一开始就是2的n次方的情况。
通过这个计算,我们可以引出另一个HashMap容量的限制,容量必须为2^n,为什么?
这个得看putVal方法,我们就可以知道,是怎么计算HashMap数组中下标的了。
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//注意这里 下标= i = (n - 1) & hash
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}
n - 1 & hash:
当我们的n(此时map的容量)是2的n次方时,给他-1,就会得到一个低位全为1的数,我们的hash和他相与就相当于取模,大于低位的全被舍弃了。
之后看看hash方法
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
可以发现是拿到 key 的 hashCode,并将 hashCode 的高16位和 hashCode 进行异或运算,得到最终的 hash 值。
为什么要右移,让高位参与运算,因为在table较小的时候,n & hash只会让低位参加运算,这样会让hash不只取决于低位!
二、有一个初始容量参数的构造方法 HashMap(int initialCapacity)
参数中传入初始容量,通过默认负载因子构造一个空的HashMap.
三、无参构造方法 HashMap()
使用默认的加载因子0.75和默认初始容量16,来构造一个空的HashMap。
四、 有Map类型的参数的构造方法
根据Map接口初始化一个新的HashMap,该HashMap拥有着和原Map中相同的映射关系,使用默认的初始容量和默认的载因子
HashMap的重要方法(putVal,resize)
咱们看完了构造方法之后发现一个问题,为啥没有Node数组的初始化,这个时候就开始怀疑,这个数组是否为懒加载(第一次操作数组的时候才会初始化),看到putVal方法。
发现当tab==null,就会resize了,这个也是我们后面扩容所用的方法。先详细看看putVal方法吧,这个方法后面再说
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
//注意这里的resize
n = (tab = resize()).length;
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
if (++size > threshold)
resize();
afterNodeInsertion(evict);
return null;
}
putVal所做的操作:
①先判断table是否为空,若为空,先resize再说。并且将初始化后数组的长度赋值给n
②通过上面讲过的n - 1 & hash算出的下标,判断下标当前有无元素,没有元素直接放即可。并将索引赋给i,当前元素赋给p
③当p!=null时处理哈希碰撞,如果p的key和传入的key相等且hash值相等直接覆盖
④如果p此时是TreeNode(我们上面说过,链表元素和树节点的类并不相同),调用putTreeVal方法,找到在树中放的位置
⑤不是的话,只能是链表了,那么我们遍历链表直到尾部(p.next = null),之后将节点放到链表尾部,如果put了这个节点到了树化的阈值
还得转换为红黑树,同样的如果在遍历链表的过程中找到了重复的元素则会先break出循环,然后直接替换并且返回旧值。
⑥为hashMap的modeCount(修改次数)+1
⑦put完了之后是否需要扩容?
现在来看看resize()方法吧
final Node<K,V>[] resize() {
//将当前的table用一个oldTab记录
Node<K,V>[] oldTab = table;
//记录旧table的容量,如果还没有初始化则为0,
int oldCap = (oldTab == null) ? 0 : oldTab.length;
//将table的阈值赋给oldThr
int oldThr = threshold;
//为扩容产生的新容器做准备(初始化)
int newCap, newThr = 0;
//开始对旧容器大小进行增加,完成扩容的目的
if (oldCap > 0) {
//旧的容器大小是否已经达到最大,若最大则无法扩容只能让他容器大小变成2^30
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
//返回旧容器
return oldTab;
}
//否则将容器的容量X2
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
//new的阈值也X2
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // initial capacity was placed in threshold
//将原阈值赋给容量
newCap = oldThr;
else {
// zero initial threshold signifies using defaults
//还没初始化,直接给默认值即可
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
//若阈值为0,也对初始阈值赋值 = newCap * loadFactor
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
// 创建一个容量为newCap的table
@SuppressWarnings({"rawtypes","unchecked"})
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
//将hashmap的table替换为扩容后table
table = newTab;
if (oldTab != null) {
for (int j = 0; j < oldCap; ++j) {
//遍历oldtable中的元素,并且计算新的位置
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
//这里表示链表上只有一个节点,无序遍历下去,直接将该节点重新计算插入即可
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e;
//如果是通过红黑树来处理冲突的,则调用相关方法把树分离开
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else {
//若是链表
//存未移位的数组
Node<K,V> loHead = null, loTail = null;
//存未移位的数组
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
//判断条件
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
其他的不去深究,咱们来重点看看,链表中的扩容机制,一看就是两个不知姓名的数组。没事,其实我们仔细想想hashmap的数组下标计算规则,我们就会发现在putVal方法中,我们是通过(n - 1 & e.hash)算出来的,那么问题来了,这个n不是我们的容量吗?但是此时我们已经是扩容后的状态了,那这个计算是不是得变成((2*n - 1) & e.hash)呢?我们知道n-1& e.hash无非是在取模,就算咱们的容量大了,主要还是得看咱们的hash,比如这种情况:
hash : 01111
n - 1:16 - 1 = 15 = 1111
那他们两个&运算后得到的是啥?不是1111吗,那就算咱们的n扩容成2倍
n - 1:16*2 - 1 = 31 = 11111111
n & hash 不还是1111吗,主要是看什么?是看咱们n-1化为二进制的后一位是为0还是1
那这个时候看看上面的if判断 if ((e.hash & oldCap) == 0)
oldCap是什么? oldCap不是16吗? 16的二进制是多少? 不是10000吗?1这个位置是在哪里?不就是n-1化为二进制的后一位吗?
我们让他和hash与预算,不就可以知道咱们n-1化为二进制的后一位是为0还是1了吗?
那么是不是就可以确定他是要加上我们扩容了的那个n还是不移动直接插入呢?
这就是为什么,我们需要两个数组,一个记录if ((e.hash & oldCap) == 0) 一个记录 if ((e.hash & oldCap) != 0) 的原因,最后将链表遍历完了
扩容随之完成!
感谢大家阅读我的HashMap源码阅读,借鉴了许多优秀博客的思想!在Java的道路上任重道远!