字符串哈希
概念
将字符串通过哈希函数转换为唯一的哈希值,可以减少内存占用,降低时间复杂度。问题时不同的字符串可能会得到相同的哈希值,也就是发生了哈希碰撞,因此哈希算法的难点就是就是如何来构造一个哈希函数,尽可能的避免哈希碰撞,以满足我们的使用需求。
基本哈希方法
给定字符串 S = s 1 s 2 s 3 s 4 . . . S=s_1s_2s_3s_4... S=s1s2s3s4...令 i d x ( x ) = x − ′ a ′ + 1 idx(x)=x-'a'+1 idx(x)=x−′a′+1, 或者直接使用x的ASCII码也行
自然溢出法
这种方法是利用数据结构unsigned long long
的范围自然溢出:即当存储的数据大于unsigned long long
的存储范围时,会自动mod 264−1264−1,就不用mod其他质数来保证唯一性了。
unsigned long long Hash[n]
hash[i]=hash[i−1]∗p+idx(s[i]);
这里的p一定要是个质数,不然可能无法保证唯一性。
单哈希法
相当于自然溢出法没有了自动取模的操作,所以需要自己进行取模操作。但是这种Hash方法在模数较小的时候的稳定性不一定得到保证,所以在这个方面不如其他方法。
hash[i]=(hash[i−1])∗p+idx(s[i])%mod;
这里的p和mod都是质数,且满足p<mod。最好在选取的时候把p和mod的值取大一点。
双哈希法
双Hash就是对一个hash值用两个不同的质数进行两次modmod操作,然后最后用一对数<hash1[n],hash2[n]><hash1[n],hash2[n]>来表示一个字符串的哈希值,这样的一对数的重复几率加上选择较大的质数,冲突率几乎为0。
hash1[i]=(hash1[i−1])∗p+idx(s[i]) % mod1
hash2[i]=(hash2[i−1])∗p+idx(s[i]) % mod2
计算子串的哈希值
如果我们求出一个串的Hash,就可以O(1)求解其子串的Hash值。
若已知一个 ∣ S ∣ = n |S|=n ∣S∣=n的字符的hash值, h a s h [ i ] , 0 < = i < = n hash[i], 0<=i<=n hash[i],0<=i<=n 子串为 S [ l : r ] , 1 < = l < = r < = n S[l:r], 1 <= l <= r <= n S[l:r],1<=l<=r<=n对应的hash值为:
h a s h = ( ( h a s h [ r ] − h a s h [ l − 1 ] ∗ p r − l + 1 ) hash=((hash[r]-hash[l-1]*p^{r-l+1})%mod + mod)%mod hash=((hash[r]−hash[l−1]∗pr−l+1)