字符串哈希

概念

将字符串通过哈希函数转换为唯一的哈希值,可以减少内存占用,降低时间复杂度。问题时不同的字符串可能会得到相同的哈希值,也就是发生了哈希碰撞,因此哈希算法的难点就是就是如何来构造一个哈希函数,尽可能的避免哈希碰撞,以满足我们的使用需求。

基本哈希方法

给定字符串 S = s 1 s 2 s 3 s 4 . . . S=s_1s_2s_3s_4... S=s1s2s3s4... i d x ( x ) = x − ′ a ′ + 1 idx(x)=x-'a'+1 idx(x)=xa+1, 或者直接使用x的ASCII码也行

自然溢出法

这种方法是利用数据结构unsigned long long的范围自然溢出:即当存储的数据大于unsigned long long的存储范围时,会自动mod 264−1264−1,就不用mod其他质数来保证唯一性了。

unsigned long long Hash[n]
hash[i]=hash[i−1]∗p+idx(s[i]);

这里的p一定要是个质数,不然可能无法保证唯一性。

单哈希法

相当于自然溢出法没有了自动取模的操作,所以需要自己进行取模操作。但是这种Hash方法在模数较小的时候的稳定性不一定得到保证,所以在这个方面不如其他方法。

hash[i]=(hash[i−1])∗p+idx(s[i])%mod;

这里的p和mod都是质数,且满足p<mod。最好在选取的时候把p和mod的值取大一点。

双哈希法

双Hash就是对一个hash值用两个不同的质数进行两次modmod操作,然后最后用一对数<hash1[n],hash2[n]><hash1[n],hash2[n]>来表示一个字符串的哈希值,这样的一对数的重复几率加上选择较大的质数,冲突率几乎为0。

hash1[i]=(hash1[i−1])∗p+idx(s[i]) % mod1
hash2[i]=(hash2[i−1])∗p+idx(s[i]) % mod2

计算子串的哈希值

如果我们求出一个串的Hash,就可以O(1)求解其子串的Hash值。

若已知一个 ∣ S ∣ = n |S|=n S=n的字符的hash值, h a s h [ i ] , 0 < = i < = n hash[i], 0<=i<=n hash[i],0<=i<=n 子串为 S [ l : r ] , 1 < = l < = r < = n S[l:r], 1 <= l <= r <= n S[l:r],1<=l<=r<=n对应的hash值为:

h a s h = ( ( h a s h [ r ] − h a s h [ l − 1 ] ∗ p r − l + 1 ) hash=((hash[r]-hash[l-1]*p^{r-l+1})%mod + mod)%mod hash=((hash[r]hash[l1]prl+1)

参考

【基本算法入门-字符串哈希(Hash)】-C++ - 摸鱼酱 - 博客园

【字符串哈希】字符串哈希入门