kmp算法
1、思路
1、s[ ]是模式串,即比较长的字符串。
2、p[ ]是模板串,即比较短的字符串。
3、“非平凡前缀”:指除了最后一个字符以外,一个字符串的全部头部组合。
4、“非平凡后缀”:指除了第一个字符以外,一个字符串的全部尾部组合。(后面会有例子,均简称为前/后缀)
5、“部分匹配值”:前缀和后缀的最长共有元素的长度。
6、next[ ]是“部分匹配值表”,即next数组,它存储的是每一个下标对应的“部分匹配值”,next记录的是,当下一位不匹配时,模板串从哪个下标开始继续匹配,因为在这个下标之前都是已经匹配的,是KMP算法的核心。
2、p[ ]是模板串,即比较短的字符串。
3、“非平凡前缀”:指除了最后一个字符以外,一个字符串的全部头部组合。
4、“非平凡后缀”:指除了第一个字符以外,一个字符串的全部尾部组合。(后面会有例子,均简称为前/后缀)
5、“部分匹配值”:前缀和后缀的最长共有元素的长度。
6、next[ ]是“部分匹配值表”,即next数组,它存储的是每一个下标对应的“部分匹配值”,next记录的是,当下一位不匹配时,模板串从哪个下标开始继续匹配,因为在这个下标之前都是已经匹配的,是KMP算法的核心。
核心思想:在每次匹配失败时,不是把p串往后移一位,而是把p串往后移动至下一次可以和前面部分匹配的位置,这样就可以跳过大多数的失配步骤。而每次p串移动的步数就是通过查找next[ ]数组确定的。
对于一个p字符串:abcab,
对ne[ 1 ] :前缀 = 空集———————————后缀 = 空集———————————next[ 1 ] = 0;
对ne[ 2 ] :前缀 = { a }———————————后缀 = { b }———————————next[ 2 ] = 0;
对ne[ 3 ] :前缀 = { a , ab }—————————后缀 = { c , bc}—————————next[ 3 ] = 0;
对ne[ 4 ] :前缀 = { a , ab , abc }———————后缀 = { a . ca , bca }———————next[ 4 ] = 1;
对ne[ 5 ] :前缀 = { a , ab , abc , abca }————后缀 = { b , ab , cab , bcab}————next[ 5 ] = 2;
| p | a | b | c | a | b |
| 下标 | 1 | 2 | 3 | 4 | 5 |
| ne[ ] | 0 | 0 | 0 | 1 | 2 |
对ne[ 2 ] :前缀 = { a }———————————后缀 = { b }———————————next[ 2 ] = 0;
对ne[ 3 ] :前缀 = { a , ab }—————————后缀 = { c , bc}—————————next[ 3 ] = 0;
对ne[ 4 ] :前缀 = { a , ab , abc }———————后缀 = { a . ca , bca }———————next[ 4 ] = 1;
对ne[ 5 ] :前缀 = { a , ab , abc , abca }————后缀 = { b , ab , cab , bcab}————next[ 5 ] = 2;
ne初始化代码模板:
ne[1]=0;//不用写
for(int i=2,j=0;i<=n;i++)//n是p串的长度,i从1开始,j从0开始,第一位ne一定为0,从第二位开始初始化
{
while(j&&p[i]!=p[j+1])//当j不为0且下一位不匹配
j=ne[j];//返回之前匹配的位置再进行比较
if(p[i]==p[j+1])//当这一位匹配时
j++;//长度加1
ne[i]=j;//记录下此时的长度
}
匹配的代码模板:
for(int i=1,j=0;i<=n;i++)
{
while(j&&s[i]!=p[j+1])//如果j有对应p串的元素,且下一位不匹配,需要移动
j=ne[j]; //根据当前ne数组移动
//用while是由于移动后可能仍然失配,所以要继续移动直到匹配或整个p串移到后面(j = 0)
if(s[i]==p[j+1])//当前位匹配时,
j++;
//当前元素匹配,j移向p串下一位
if(j==m)//当全部匹配时
{
//匹配成功,进行相关操作
j = ne[j]; //继续匹配下一个子串
}
}
完整代码模板:
#include<iostream>
using namespace std;
const int N=1e5+10;
const int M=1e6+10;
int n,m;//n是p串长度,m是s串长度
char s[M],p[N];
int ne[N];
int main()
{
scanf("%d %s %d %s",&n,p+1,&m,s+1);//两个字符串都从1开始输入
for(int i=2,j=0;i<=n;i++)//n是p串的长度,i从1开始,j从0开始,第一位ne一定为0,从第二位开始初始化
{
while(j&&p[i]!=p[j+1])//当j不为0且下一位不匹配
j=ne[j]; //返回之前匹配的位置再进行比较
if(p[i]==p[j+1]) //当这一位匹配时
j++; //长度加1
ne[i]=j; //记录下此时的长度
}
for(int i=1,j=0;i<=m;i++)
{
while(j&&s[i]!=p[j+1])//如果j有对应p串的元素,且下一位不匹配,需要移动
j=ne[j]; //根据当前ne数组移动
//用while是由于移动后可能仍然失配,所以要继续移动直到匹配或整个p串移到后面(j = 0)
if(s[i]==p[j+1])//当前元素匹配,j移向p串下一位
j++;
if(j==n)//当全部匹配时
{
printf("%d ",i-n);
j = ne[j]; //继续匹配下一个子串
}
}
return 0;
}
