深入理解Java中的HashMap
一、HashMap的结构图示
本文主要说的是jdk1.8版本中的实现。而1.8中HashMap是数组+链表+红黑树实现的,大概如下图所示。后面还是主要介绍Hash Map中主要的一些成员以及方法原理。
那么上述图示中的结点Node具体类型是什么,源码如下。Node是HashMap的内部类,实现了Map.Entery接口,主要就是存放我们put方法所添加的元素。其中的next就表示这可以构成一个单向链表,这主要是通过链地址法解决发生hash冲突问题。而当桶中的元素个数超过阈值的时候就换转为红黑树。
//hash桶中的结点Node,实现了Map.Entry
static class Node
上面只是大概了解了一下HashMap的简单组成,下面主要介绍其中的一些参数和重要的方法原理实现。
二、HashMap的成员变量以及含义
//默认初始化容量初始化=16
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
//最大容量 = 1 << 30
static final int MAXIMUM_CAPACITY = 1 << 30;
//默认加载因子.一般HashMap的扩容的临界点是当前HashMap的大小 > DEFAULT_LOAD_FACTOR *
//DEFAULT_INITIAL_CAPACITY = 0.75F * 16
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//当hash桶中的某个bucket上的结点数大于该值的时候,会由链表转换为红黑树
static final int TREEIFY_THRESHOLD = 8;
//当hash桶中的某个bucket上的结点数小于该值的时候,红黑树转变为链表
static final int UNTREEIFY_THRESHOLD = 6;
//桶中结构转化为红黑树对应的table的最小大小
static final int MIN_TREEIFY_CAPACITY = 64;
//hash算法,计算传入的key的hash值,下面会有例子说明这个计算的过程
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
//tableSizeFor(initialCapacity)返回大于initialCapacity的最小的二次幂数值。下面会有例子说明
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
//hash桶
transient Node
2.1、hash方法说明
//hash算法 static final int hash(Object key) { int h; //key == null : 返回hash=0 //key != null //(1)得到key的hashCode:h=key.hashCode() //(2)将h无符号右移16位 //(3)异或运算:h ^ h>>>16 return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); }
假设现在我们向一个map中添加元素,例如map.put("fsmly","test"),那么其中key为"fsmly"的hashCode的二进制表示为0000_0000_0011_0110_0100_0100_1001_0010,按照上面的步骤来计算,那么我们调用hash算法得到的hash值为:
2.2、tableSizeFor方法说明
该方法的作用就是:返回大于initialCapacity的最小的二次幂数值。如下实例
//n=cap-1=5; 5的二进制0101B。>>> 操作符表示无符号右移,高位取0 //n |= n>>>1: (1)n=0101 | 0101>>>1; (2)n=0101 | 0010; (3)n = 0111B //n |= n>>>2: (1)n=0111 | 0111>>>2; (2)n=0111 | 0011; (3)n = 0111B //n |= n>>>4: (1)n=0111 | 0111>>>4; (2)n=0111 | 0000; (3)n = 0111B //n |= n>>>8: (1)n=0111 | 0111>>>8; (2)n=0111 | 0000; (3)n = 0111B //n |= n>>>16:(1)n=0111 | 0111>>>16;(2)n=0111 | 0000; (3)n = 0111B static final int tableSizeFor(int cap) { int n = cap - 1; n |= n >>> 1; n |= n >>> 2; n |= n >>> 4; n |= n >>> 8; n |= n >>> 16; //n<0返回1 //n>最大容量,返回最大容量 //否则返回n+1(0111B+1B=1000B=8) return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1; }
再看下面这个:
//至于这里为什么减1,当传入的cap为2的整数次幂的时候,减1即保证最后的计算结果还是cap,而不是大于cap的另一个2的 //整数次幂,例如我们传入cap=16=10000B.按照上面那样计算 //n=cap-1=15=1111B.按照上面的方法计算得到: // n |= n>>>1: n=1111|0111=1111;后面还是相同的结果最后n=1111B=15. //所以返回的时候为return 15+1; int n = cap - 1;
三、HashMap的构造方法
我们看看HashMap源码中为我们提供的四个构造方法。我们可以看到,平常我们最常用的无参构造器内部只是仅仅初始化了loadFactor,别的都没有做,底层的数据结构则是延迟到插入键值对时再进行初始化,或者说在resize中会做。后面说到扩容方法的实现的时候会讲到。
//(1)参数为初始化容量和加载因子的构造函数 public HashMap(int initialCapacity, float loadFactor) { if (initialCapacity < 0) throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity); if (initialCapacity > MAXIMUM_CAPACITY) initialCapacity = MAXIMUM_CAPACITY; if (loadFactor <= 0 || Float.isNaN(loadFactor)) throw new IllegalArgumentException("Illegal load factor: " + loadFactor); this.loadFactor = loadFactor; this.threshold = tableSizeFor(initialCapacity); //阈值为大于initialCapacity的最小二次幂 } //(2)只给定初始化容量,那么加载因子就是默认的加载因子:0.75 public HashMap(int initialCapacity) { this(initialCapacity, DEFAULT_LOAD_FACTOR); } //(3)加载因子为默认的加载因子,但是这个时候的初始化容量是没有指定的,后面调用put或者get方法的时候才resize public HashMap() { this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted } //(4)将传递的map中的值调用putMapEntries加入新的map集合中,其中加载因子是默认的加载因子 public HashMap(Map extends K, ? extends V> m) { this.loadFactor = DEFAULT_LOAD_FACTOR; putMapEntries(m, false); }
四、HashMap元素在数组中的位置
不管增加、删除、查找键值对,定位到哈希桶数组的索引都是很关键的第一步,所以我们看看源码怎样通过hash()方法以及其他代码确定一个元素在hash桶中的位置的。
//计算map中key的hash值 static final int hash(Object key) { int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); } //这一小段代码就是定位元素在桶中的位置。具体做法就是:容量n-1 & hash. //其中n是一个2的整数幂,而(n - 1) & hash其实质就是hash%n,但 //是取余运算的效率不如位运算与,并且(n - 1) & hash也能保证散列均匀,不会产生只有偶数位有值的现象 p = tab[i = (n - 1) & hash];
下面我们通过一个例子计算一下上面这个定位的过程,假设现在桶大小n为16.
我们可以看到,这里的hash方法并不是用原有对象的hashcode最为最终的hash值,而是做了一定位运算,大概因为如果(n-1)的值太小的话,(n - 1) & hash的值就完全依靠hash的低位值,比如n-1为0000 1111,那么最终的值就完全依赖于hash值的低4位了,这样的话hash的高位就玩完全失去了作用,h ^ (h >>> 16),通过这种方式,让高位数据与低位数据进行异或,也是变相的加大了hash的随机性,这样就不单纯的依赖对象的hashcode方法了。
五、HashMap的put方法分析
5.1、put方法源码分析
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node
5.2、put方法执行过程总结
可以看到主要逻辑在put方法中调用了putVal方法,传递的参数是调用了hash()方法计算key的hash值,主要逻辑在putVal中。可以结合注释熟悉这个方法的执行,我在这里大概总结一下这个方法的执行:
1.首先 (tab = table) == null || (n = tab.length) == 0这一块判断hash桶是否为null,如果为null那么会调用resize方法扩容。后面我们会说到这个方法
2.定位元素在桶中的位置,具体就是通过key的hash值和hash桶的长度计算得到下标i,如果计算到的位置处没有元素(null),那么就新建结点然后添加到该位置。
3.如果table[i]处不为null,已经有元素了,那么就表明产生hash冲突,这里可能是三种情况
①判断key是不是一样,如果key一样,那么就将新的值替换旧的值;
②如果不是因为key一样,那么需要判断当前该桶是不是已经转为了红黑树,是的话就构造一个TreeNode结点插入红黑树;
③不是红黑树,就使用链地址法处理冲突问题。这里主要就是遍历链表,如果在遍历过程中也找到了key一样的元素,那么久还是使用新值替换旧值。否则会遍历到链表结尾处,到这里就直接新添加一个Node结点插入链表,插入之后还需要判断是不是已将超过了转换为红黑树的阈值8,如果超过就会转为红黑树。
4.最后需要修改modCount的值。
5.判断插入后的size大小是不是超过了threshhold,如果超过需要进行扩容。
上面很多地方都涉及到了扩容,所以下面我们首先看看扩容方法。
六、HashMap的resize方法分析
6.1、resize方法源码
扩容(resize)就是重新计算容量,具体就是当map内部的size大于DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY ,就需要扩大数组的长度,以便能装入更多的元素。resize方法实现中是使用一个新的数组代替已有的容量小的数组。
//该方法有2种使用情况:1.初始化哈希表(table==null) 2.当前数组容量过小,需扩容
final Node
6.2、(e.hash & oldCap) == 0分析
我这里添加上一点,就是为什么使用 (e.hash & oldCap) == 0判断是处于原位置还是放在更新的位置(原位置+旧容量),解释如下:我们知道capacity是2的幂,所以oldCap为10...0的二进制形式(比如16=10000B)。
(1)若判断条件为真,意味着oldCap为1的那位对应的hash位为0(1&0=0,其他位都是0,结果自然是0),对新索引的计算没有影响,至于为啥没影响下面就说到了。先举个例子计算一下数组中的下标在扩容前后的变化:
从上面计算发现,当cap为1的那位对应的hash为0的时候,resize前后的index是不变的。我们再看下面,使用上面的hash值,对应的就是 (e.hash & oldCap) == 0,恰好也是下标不变的
(2)若判断条件为假,则 oldCap为1的那位对应的hash位为1。比如新下标=hash&( newCap-1 )= hash&( (16<<2) - 1)=10010,相当于多了10000,即 oldCap .如同下面的例子
从上面计算发现,当cap为1的那位对应的hash为1的时候,resize前后的index是改变的。我们再看下面,使用上面的hash值,对应的就是 (e.hash & oldCap) != 0,恰好下标就是原索引+原容量
6.3、部分代码理解
这一部分其实和put方法中,使用链地址法解决hash冲突的原理差不多,都是对链表的操作。
// 原位置 if ((e.hash & oldCap) == 0) { //loTail处为null,那么直接加到该位置 if (loTail == null) loHead = e; //loTail为链表尾结点,添加到尾部 else loTail.next = e; //添加后,将loTail指向链表尾部,以便下次从尾部添加 loTail = e; } // 原位置+旧容量 else { //hiTail处为null,就直接点添加到该位置 if (hiTail == null) hiHead = e; //hiTail为链表尾结点,尾插法添加 else hiTail.next = e; hiTail = e; }
我们直接通过一个简单的图来理解吧
6.4、resize总结
resize代码稍微长了点,但是总结下来就是这几点
判断当前oldTab长度是否为空,如果为空,则进行初始化桶数组,也就回答了无参构造函数初始化为什么没有对容量和阈值进行赋值,如果不为空,则进行位运算,左移一位,2倍运算扩容。扩容,创建一个新容量的数组,遍历旧的数组:如果节点为空,直接赋值插入如果节点为红黑树,则需要进行进行拆分操作(个人对红黑树还没有理解,所以先不说明)如果为链表,根据hash算法进行重新计算下标,将链表进行拆分分组(相信看到这里基本上也知道链表拆分的大致过程了)
七、HashMap的get方法分析
7.1、get方法源码
基本逻辑就是根据key算出hash值定位到哈希桶的索引,当可以就是当前索引的值则直接返回其对于的value,反之用key去遍历equal该索引下的key,直到找到位置。
public V get(Object key) {
Node
以上就是深入理解Java中的HashMap的详细内容,更多关于Java HashMap的资料请关注趣讯吧其它相关文章!
推荐阅读
-
java fileinputstream中文乱码如何解决
javafileinputstream中文乱码如何解决今天小编给...
-
java实现点赞功能
-
java实现简单点赞功能
-
java实现收藏功能
-
java输入空行结束问题怎么解决
-
Java线程中常用的操作有哪些
-
java输入时怎么通过回车来结束输入
java输入时怎么通过回车来结束输入这篇文章主要介绍“java输入...
-
Java数据结构之线索化二叉树怎么实现
Java数据结构之线索化二叉树怎么实现这篇文章主要介绍“Java数...
-
Java中的泛型怎么理解
Java中的泛型怎么理解本篇内容介绍了“Java中的泛型怎么理解”...
-
Java字符串编码解码性能怎么提升
Java字符串编码解码性能怎么提升这篇“Java字符串编码解码性能...