kmp算法专题

kmp算法前置技能：无

kmp算法是一种高效的字符串匹配算法，对于在给定长为n的主字符串S里查找长为m的模式字符串P，可以将时间复杂度从O(n*m)优化为O(n+m)。

kmp算法的核心是一个被称为部分匹配表(Partial Match Table)(下文简称为PMT)的数组。对于一个字符串“abababca”来说，它的PMT如下图的value所示，PMT的值是字符串的前缀集合与后缀集合的交集中最长元素的长度。

在主字符串S=“ababababca”中查找匹配字符串P=“abababca”。如果在j处字符不匹配，那么由于前面所说的匹配字符串PMT的性质，主字符串中i指针之前的PMT[j-1]位就一定与匹配字符串的第0位至第PMT[j-1]位是相同的。

以图中的例子来说，在i处失配，那么主字符串和匹配字符串的前6位就是相同的。又因为匹配字符串的前6位，它的前4位前缀和后4位后缀是相同的，所以我们推知主字符串，i之前的4位和匹配字符串开头的4位是相同的。就是图中的灰色部分，那这部分就不用比较了。

有了前面的思路，我们就可以使用PMT加速字符串的查找了。如果是在j位失配，那么影响j指针回溯的位置其实是第j-1位的PMT值，所以为了方便，我们不直接使用PMT数组，而是将PMT数组向后移一位。我们把新得到的这个数组称为next数组。

在上面的例题中，next数组如下图所示。其中我们在把PMT向后移的过程中，第0位的值我们设为-1，目的是便于编程。

其实，求next数组的过程完全可以看成字符串匹配的过程，即以匹配字符串为主字符串，以匹配字符串的前缀为目标字符串，一旦字符串匹配成功，那么当前的next值就是匹配成功的字符串的长度。具体来说，就是从匹配字符串的第1位(注意，不包括第0位)开始对自身进行匹配运算。在任一位置，能匹配的最长长度就是当前位置的next值，如下图所示。

例题：
HDU1711 Number Sequence

Problem Description
Given two sequences of numbers: a[1], a[2], ...... , a[N], and b[1], b[2], ...... , b[M] (1 <= M <= 10000, 1 <= N <= 1000000). Your task is to find a number K which make a[K] = b[1], a[K + 1] = b[2], ...... , a[K + M - 1] = b[M]. If there are more than one K exist, output the smallest one.

Input
The first line of input is a number T which indicate the number of cases. Each case contains three lines. The first line is two numbers N and M (1 <= M <= 10000, 1 <= N <= 1000000). The second line contains N integers which indicate a[1], a[2], ...... , a[N]. The third line contains M integers which indicate b[1], b[2], ...... , b[M]. All integers are in the range of [-1000000, 1000000].

Output
For each test case, you should output one line which only contain K described above. If no such K exists, output -1 instead.

Sample Input
2
13 5
1 2 1 2 3 1 2 3 1 3 2 1 2
1 2 3 1 3
13 5
1 2 1 2 3 1 2 3 1 3 2 1 2
1 2 3 2 1

Sample Output
6
-1

参考代码：

#include <stdio.h>
#include <string.h>

int n, m;
int a[1000005], b[10005], next[10005];

void buildnext()
{
    next[0] = -1;
    int i = 0, j = -1;
    while (i < m)
    {
        if (j == -1 || b[i] == b[j])
            next[++i] = ++j;
        else
            j = next[j];
    }
}

int kmp()
{
    buildnext();
    int i = 0, j = 0;
    while (i < n && j < m)
    {
        if (j == -1 || a[i] == b[j])
        {
            ++i;
            ++j;
        }
        else
            j = next[j];
    }
    if (j == m)
        return i - j;
    else
        return -1;
}

int main()
{
    int t, i, ret;
    scanf("%d", &t);
    while (t--)
    {
        memset(a, 0, sizeof(a));
        memset(b, 0, sizeof(b));
        memset(next, 0, sizeof(next));
        scanf("%d %d", &n, &m);
        for (i = 0; i < n; ++i)
            scanf("%d", &a[i]);
        for (i = 0; i < m; ++i)
            scanf("%d", &b[i]);
        ret = kmp();
        if (ret >= 0)
            printf("%d\n", ret + 1);
        else
            printf("-1\n");
    }
    return 0;
}

参考资料：https://www.zhihu.com/question/21923021/answer/281346746

全部评论

推荐最新楼层

05-11 09:25

北京邮电大学嵌入式工程师

影石嵌入式一二面面经（偏AI推理/C++）

最近影石的秋招真的让我心态反复横跳。本来已经打算放弃了，结果后面又被抬价，直接又燃起希望了😂整体面试体验还是挺不错的，面试官都很强，问得也很深入，尤其是对项目和底层原理的考察非常细。这里整理一下自己的面经，希望能帮到后面准备秋招的同学。一面：疯狂技术拷打（AI推理 + C++ + 体系结构）一面的面试官绝对是技术大牛，问题密度非常高，几乎没停过。AI推理 / MNN / 模型部署为什么选择 MNN 推理框架？调研过其他框架吗？模型从训练到端侧用 MNN 推理的完整流程是什么？int8 和 FP16 的性能提升明显吗？MNN 做了哪些优化？双线性插值的 4 个点权重怎么计算？仿射变换用了哪些 ...

点赞评论收藏

05-14 21:56

门头沟学院 Java

5.14字节中国广告后端一面

1.单例模式 我写完懒汉式的一直说有问题，我都不知道哪里有问题懵逼了，和我本子上写的一模一样2.CAS底层 两个线程真实交互的过程是什么样子的？3.mysql中的bin log和redo log的二阶段提交，谁先提交？4.HashMap底层 为什么Concurrent是线程安全？5.限流100QPS情况下 如何实现限流？ 滑动窗口的问题？如何处理？令牌桶可以解决吗？6.synchronized是怎么样的，懒汉式中，如果一千个请求打过来怎么办？7.求最长递归子序列，要求复杂度nlogn帖主实习一个月修为散尽完了 答得非常差 全程java八股拷打 一点实习没讲也没问 ai也没问 woc！！！！！吗...

查看7道真题和解析

点赞评论收藏

03-19 01:17

大连东软信息学院人工智能

这简历是一坨吗？9成是已读不回

机智的豹子有点心碎：UU我还在找工作还没找到，一直在搜简历怎么改，总结了这些： 1.SEO：简历根据每一个岗位定制化：使用这个岗位中所描述的工作的词，它要求什么技能就把自己的技能描述成什么样子，把SEO用在自己身上（把我的简历和个人特质，当成一个热门产品来做 “搜索引擎优化”），让HR能用最低的门槛看到我 2."顺序：把岗位要求的技能跟经历放在简历的最开头、最显眼的位置" 3.包装：简历是一个最终交付说明书，只要最终学习成长做得到就可以，在合适的范围内自我吹捧（我这个人怎么能够在HR的角度被迅速的看懂和看到，减轻HR的工作压力） 4.每点加小标题：用6~10字概括该段内容，便于面试官快速抓取信息。 5.避免空泛描述：拒绝“培养了组织能力”等泛泛而谈，替换为具体行动和成果。 6."使用“三段式结构”：每段经历按“为什么做-做了什么-结果如何”展开： a) 为什么做：痛点或目标（例如“品牌声量不足”） b) 做了什么：方法论（例如“趋势洞察+竞品对标+人群细分”） c) 结果如何：量化成果或影响（例如“推动客户投放20万预算”）" 7.量化成果：用数字体现工作成效（如“整理500+份资料”“撰写2万字报告”）。这些有的是我想去的岗的，如果对你有用的话按需修改就好~加油，早日上岸！

点赞评论收藏