定义
假设文本是一个长度为n的数组
T[1...n]
,而模式是一个长度为m的数组P[1...m]
,其中m<=n
。进一步假设P和T的元素都是来自一个有限字母集合M的字符。如M={0,1}
或者M={a,b,c,...z}
。
字符数组P和T通常称为字符串。
原理
假设
M={0,1,2,3...,9}
,这样每个字符都是十进制数字。我们可以用长度为k的十进制数来表示由k
个连续的字符组成的字符串。
给定一个模式
P[1...m]
,假设p
为它对应的十进制数值。给定一个文本T[1...n]
,假设t_s
表示长度为m
的字符串T[s+1,...s+m]
所对应的十进制值,其中s=0,1,...,n-m
。则当且仅当T[s+1,...s+m]=P[1...m]
时有p=t_s
。则总能够在O(m)
时间内计算出p
的值,在O(n-m+1)
时间内计算所有t_s
的值。则通过比较p
和每一个t_s
的值,能在O(m)+O(n-m+1)=O(n)
时间内计算出所有的有效偏移。
通常假定每个字符都是以
d
为基数表示的数字,其中d=|M
,表示有限字母集合M的大小可以利用霍纳法则在
O(m)
时间内计算出p
与t_0
:
p=P[m]+10(P[m-1]+10(P[m-2]+...+10(P[2]+10P[1])...))
t_0=T[m]+10(T[m-1]+10(T[m-2]+...+10(T[2]+10T[1])...))
然后在
O(n-m)
内计算出t_1
、t_2
、...t_<n-m>
:t_<s+1>=10(t_s-10^(m-1)*T[s+1])+T[s+m+1]
但是有可能
p
和t_s
的值太大,导致不方便对其进行操作。如果P
包含m
各字符,那么p(m位数)
上 每次算术运算需要“常数”时间这一假设就不成立。我们可以选择一个合适的模q
来计算p
和t_s
的模。
我们可以在O(m)
时间内计算出模q
的p
值,然后在O(n-m+1)
时间内计算出模q
的所有t_s
值。
另h = d^(m-1)(mod q)
,则:
t_<s+1>=(d(t_s-T[s+1]h)+T[s+m+1]) mod q
但是基于模q得出的结果:
t_s = p (mod q)
并不能说明t_s=p
。我们对于这样的s
称为伪命中点,还需要进一步检测条件P[1...m]=T[s+1,...s+m]
成立
步骤
- 初始化:计算
p
和t_0
- 遍历
s
从0
到n-m
(包含n-m
):
- 找到所有的
p=t_s
的偏移s
,检查若P[1...m]=T[s+1,...s+m]
,则将结果s
放入结果std::vector
中- 返回结果std::vector
性能
rabin_karp
匹配算法的预处理时间为O(m)
,最坏情况下的运行时间为O((n-m+1)m)
,在平均情况下他的运行时间还是比较好的
实现
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 |
template<typename IteratorT,typename IteratorP> std::vector<int> rabin_karp_match(const IteratorT iterT_begin, const IteratorT iterT_end, const IteratorP iterP_begin, const IteratorP iterP_end, unsigned radix_d,unsigned mod_q) { typedef typename std::iterator_traits<IteratorT>::value_type T1; typedef typename std::iterator_traits<IteratorP>::value_type T2; static_assert(std::is_same<T1,T2>::value,"rabin_karp_match error: T and P must contain same type value"); static_assert(std::is_integral<T1>::value,"rabin_karp_match error: sequence element must be integer"); auto lenT = std::distance(iterT_begin,iterT_end); auto lenP = std::distance(iterP_begin,iterP_end); if (lenT < 0) throw std::invalid_argument("rabin_karp_match error: iterT_begin must <= iterT_end"); if (lenP < 0) throw std::invalid_argument("rabin_karp_match error: iterP_begin must <= iterP_end"); std::vector<int> result; if (lenT < lenP)//模式串P较长,直接返回 return result; //初始化 int p = 0; int t_0 = 0; for (int i = 0;i < len_P; i++) { p = (radix_d*p+*(iterP_begin+i))%mod_q; t_0 = (radix_d*t_0+*(iterT_begin+i))%mod_q; } //匹配 auto t_s = t_0; auto h = get_h<unsigned>(radix_d,len_P,mod_q); for(int s = 0;s < lenT - lenP; s++) { if(p == t_s)//伪命中点 { bool matched = true; for (int j = 0;j < lenP; j++) { if (*(iterT_begin+s+j) != *(iterP_begin+j)) { matched false; break; } } if (matched) result.push_back(s); } if (s < lenT-lenP)//当s != n-m时,向后递推 t_s = (radix_d*(t_s+*(iterT_begin+s)*h*(mod_q-1))+*(iterT_begin+s+lenP))%mod_q; } return result; } |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
template<typename T> T get_h(T radix_d,T len_m,T mod_q) { static_assert(std::is_integral<T>::value,"get_h error: T must be integer"); if(len_m==0) throw std::invalid_argument("get_h error: len_m must >=1 !"); if(radix_d==0) throw std::invalid_argument("get_h error: radix_d must >=1 !"); if(mod_q==0) throw std::invalid_argument("get_h error: mod_q must >=1 !"); T result=1; for(int i=0;i<len_m-1;i++) result=result*radix_d % mod_q; return result; } |
本文为原创文章,版权归Aet所有,欢迎分享本文,转载请保留出处!