字符串哈希

概念

将字符串通过哈希函数转换为唯一的哈希值，可以减少内存占用，降低时间复杂度。问题时不同的字符串可能会得到相同的哈希值，也就是发生了哈希碰撞，因此哈希算法的难点就是就是如何来构造一个哈希函数，尽可能的避免哈希碰撞，以满足我们的使用需求。

给定字符串 $S=s_1s_2s_3s_4...$ 令 $i d x (x) = x -^{'} a^{'} + 1$ , 或者直接使用x的ASCII码也行

这种方法是利用数据结构unsigned long long的范围自然溢出：即当存储的数据大于unsigned long long的存储范围时，会自动mod 264−1264−1，就不用mod其他质数来保证唯一性了。

unsigned long long Hash[n]
hash[i]=hash[i−1]∗p+idx(s[i]);

这里的p一定要是个质数，不然可能无法保证唯一性。

相当于自然溢出法没有了自动取模的操作，所以需要自己进行取模操作。但是这种Hash方法在模数较小的时候的稳定性不一定得到保证，所以在这个方面不如其他方法。

hash[i]=(hash[i−1])∗p+idx(s[i])%mod;

这里的p和mod都是质数，且满足p<mod。最好在选取的时候把p和mod的值取大一点。

双Hash就是对一个hash值用两个不同的质数进行两次modmod操作，然后最后用一对数<hash1[n],hash2[n]><hash1[n],hash2[n]>来表示一个字符串的哈希值，这样的一对数的重复几率加上选择较大的质数，冲突率几乎为0。

hash1[i]=(hash1[i−1])∗p+idx(s[i]) % mod1
hash2[i]=(hash2[i−1])∗p+idx(s[i]) % mod2

如果我们求出一个串的Hash，就可以O(1)求解其子串的Hash值。

若已知一个 $∣ S ∣ = n$ 的字符的hash值， $h a s h [i], 0 < = i < = n$ 子串为 $S [l : r], 1 < = l < = r < = n$ 对应的hash值为：

$hash=((hash[r]-hash[l-1]*p^{r-l+1})%mod + mod)%mod$