對于hash code的理論我不想多說,這個話題太大。我只想說用hash code的原因只有一個:效率。理論的說法它的復(fù)雜度只有O(1)。試想我們把元素放在線性表里面,每次要找一個元素必須從頭一個一個的找它的復(fù)雜度有O(n)。如果放在平衡二叉樹,復(fù)雜度也有O(log n)。
為啥很多地方說“覆寫equals的時候一定要覆寫hashCode”。說到這里我知道很多人知道有個原則:如果a.equals(b)那么要確保a.hashCode()==b.hashCode()。為什么?hashCode和我寫的程序的業(yè)務(wù)邏輯毫無關(guān)系,為啥我要override? 要我說如果你的class永遠(yuǎn)不可能放在hash code為基礎(chǔ)的容器內(nèi),不必勞神,您真的不必override hashCode() :)
說得準(zhǔn)確一點(diǎn)放在HashMap和Hashtable里面如果是作為value而不是作為key的話也是不必override hashCode了。至于HashSet,實(shí)際上它只是忽略value的HashMap,每次HashSet.add(o)其實(shí)就是 HashMap.put(o, dummyObject)。
那為什么放到Hash容器里面要overide hashCode呢?因?yàn)槊看蝕et的時候HashMap既要看equals是不是true也要看hash code是不是一致,put的時候也是要看equals和hash code。
如果說到這里您還是不太明白,咱就舉個例子:
譬如把一個自己定義的class Foo{...}放到HashMap。實(shí)際上HashMap也是把數(shù)據(jù)存在一個數(shù)組里面,所以在put函數(shù)里面,HashMap會調(diào) Foo.hashCode()算出作為這個元素在數(shù)組里面的下標(biāo),然后把key和value封裝成一個對象放到數(shù)組。等一下,萬一2個對象算出來的 hash code一樣怎么辦?會不會沖掉?先回答第2個問題,會不會沖掉就要看Foo.equals()了,如果equals()也是true那就要沖掉了。萬一 是false,就是所謂的collision了。當(dāng)2個元素hashCode一樣但是equals為false的時候,那個HashMap里面的數(shù)組的這 個元素就變成了鏈表。也就是hash code一樣的元素在一個鏈表里面,鏈表的頭在那個數(shù)組里面。
回過來說get的時候,HashMap也先調(diào)key.hashCode()算出數(shù)組下標(biāo),然后看equals是不是true,所以就涉及了equals。
反觀假設(shè)如果a.equals(b)但是a.hashCode()!=b.hashCode()的話,在put元素a之后,我們又用一個 a.equals(b)但是b.hashCode()!=a.hashCode()的b元素作為key來get的時候就找不到a了。如果 a.hashCode()==b.hashCode()但是!a.equals(b)倒是不要緊,這2個元素會collision然后被放到鏈表,只是效 率變差。
這里有個非常簡化版的HashMap實(shí)現(xiàn)幫助大家理解。
這個問題的權(quán)威闡釋可以參考Bloch的<Effective Java>的 Item 9: Always override hashCode when you override equals