题解 | #查找两个字符串a,b中的最长公共子串#

查找两个字符串a,b中的最长公共子串

http://www.nowcoder.com/practice/181a1a71c7574266ad07f9739f791506

描述

题目描述

查找两个字符串a,b中的最长公共子串。若有多个,输出在较短串中最先出现的那个。

注:子串的定义:将一个字符串删去前缀和后缀(也可以不删)形成的字符串。请和“子序列”的概念分开!

示例

输入:
abcdefghijklmnop
abcsafjklmnopqrstuvw
输出:
jklmnop

知识点:字符串

难度:⭐⭐⭐


题解

方法一:枚举+字符串匹配

图解

image-20211209173940637

解题思路:

通过遍历短字符串的每个字符作为起点,借助左右指针不断判断最长重复子串,可以求出结果

算法流程

  • 遍历较短字符串的每个字符作为起点,不断进行子串的匹配
  • 维护 左指针j,右指针k, 右指针逐渐向左逼近
  • 满足子串匹配的同时还要满足子串长度是最大的

Java 版本代码如下:

import java.util.*;
public class Main{
    public static void main(String[]args){
        Scanner sc=new Scanner(System.in);
        while(sc.hasNext()){
            String s1=sc.nextLine();
            String s2=sc.nextLine();
            longString(s1,s2);
        }
    }
    public static void longString(String s1,String s2){
        String shortStr = s1.length() < s2.length() ? s1 : s2;
        String longStr = s1.length() > s2.length() ? s1 : s2;
        int shortLen = shortStr.length();
        int longLen = longStr.length();
        int maxLen = 0, start = 0;
        for(int i = 0; i < shortLen;i++) {
            // 剪枝,子串长度已经不可能超过maxLen,退出循环
            if(shortLen - i + 1 <= maxLen) {
                break;
            }
            // 左指针j,右指针k, 右指针逐渐向左逼近
            for(int j = i, k = shortLen; k > j; k--) {
                String subStr = shortStr.substring(i, k);
                if(longStr.contains(subStr) && maxLen < subStr.length()) {
                    maxLen = subStr.length();
                    start = j;
                    // 找到就立即返回
                    break;
                } 
            }
        }
        System.out.println(shortStr.substring(start, start + maxLen));
    }
}

复杂度分析

时间复杂度O(n2(n+m))O(n^2(n+m)),两层for循环对字符串继续遍历截取,第二层for循环里使用了String的substring是O(n)级别,contains是O(n+m),因此总的是O(n2(n+m))O(n^2(n+m)),n为较短字符串的长度

空间复杂度O(1)O(1), 只用了常数空间。

方法二:动态规划

解题思路

通过维护状态数组,借助动态规划思想,实现状态转移过程,不断递推得到最终结果

算法流程

  • 维护动态数组dp[i][j]表示在较短字符串str1以第i个字符结尾,str2中以第j个字符结尾时的公共子串长度。
  • 从左向右递推,i为短字符串str1的结尾索引,j为str2的结尾索引
  • 相等则计数,并不断更新最长公共子串的长度和结尾索引

Java 版本代码如下:

import java.util.*;
public class Main{
    public static void main(String[]args){
        Scanner sc=new Scanner(System.in);
        while(sc.hasNext()){
            String s1=sc.nextLine();
            String s2=sc.nextLine();
            System.out.println(longString(s1,s2));
        }
    }
    
    // 动态规划
    public static String longString(String str1, String str2) {
        String temp = "";
        // 保证str1是较短字符串
        if (str1.length() > str2.length()) {
            temp = str1;
            str1 = str2;
            str2 = temp;
        }
        int m = str1.length() + 1;
        int n = str2.length() + 1;
        // 表示在较短字符串str1以第i个字符结尾,str2中以第j个字符结尾时的公共子串长度。
        int[][] dp = new int[m][n];
        // 匹配字符,并记录最大值的str1的结尾下标
        int max = 0;
        int index = 0;
        // 从左向右递推,i为短字符串str1的结尾索引,j为str2的结尾索引
        for (int i=1; i < m; i++) {
            for (int j=1; j < n; j++) {
                if (str1.charAt(i-1) == str2.charAt(j-1)) {
                    // 相等则计数
                    dp[i][j] = dp[i-1][j-1] + 1;
                    // 不断更新变量
                    if (dp[i][j] > max) {
                        max = dp[i][j];
                        index = i;
                    }
                }
            }
        }
        // 截取最大公共子串
        return str1.substring(index-max, index);
    }
}

复杂度分析

时间复杂度O(mn)O(mn),两层for循环,需要枚举字符串的每个字符作为起点,m和n分别为两个字符串的长度

空间复杂度O(mn)O(mn), 维护了状态数组保存递推状态,n和m分别是str1和str2的长度

华为机试 文章被收录于专栏

华为机试题解

全部评论
方法二的动态规划的dp[i][j]的描述不正确,正确的描述应该为:str1.substring(0, i)和str2.substring(0, j)有最大公共子串,而且最大公共子串在两者的最右边,左边的剩余部分不属于最大公共子串。
7
送花
回复
分享
发布于 2022-12-22 17:34 广东
其实题设不是很严谨,描述中提到“较短串”,估计命题的意思是两串长度不同的,如果两串长度一样且可以找到两个长度相同的子串AAA和bbb,子串AAA在串1先出现,子串bbb在串2先出现,就不知道要以哪个为准了
6
送花
回复
分享
发布于 2022-06-28 17:37
秋招专场
校招火热招聘中
官网直投
动态规划dp[i][j]数组,最后得到的值很多为0,但如果硬按照dp[i][j]的概念来,是不应该为0的;
3
送花
回复
分享
发布于 2023-04-12 11:15 湖北
如果两个字符串的长度相等,则解法一有问题
1
送花
回复
分享
发布于 2022-03-14 22:09
为什么需要保证str1是较短的一个?
1
送花
回复
分享
发布于 2022-04-13 08:26
第一个方法小问题挺多的,判断停止的第一个条件应该是shortLen-i<=maxlen ;然后判断较短字符没有考虑两字符串长度相等的情况;内部循环的j没有必要设,用外部的循环变量i就行吧。
1
送花
回复
分享
发布于 2023-06-15 17:43 陕西
666,膜拜大佬
点赞
送花
回复
分享
发布于 2022-04-01 17:18
是不是少写了一个等号 dp的时候 i和j都要取到等于长度才可以
点赞
送花
回复
分享
发布于 2022-08-04 23:48
大佬,有个问题我想问一下,就是(int m = str1.length() + 1;)后面那个+1是怎么回事儿呢?
点赞
送花
回复
分享
发布于 2022-08-20 14:19 陕西
好像解法1个i和j作用一样,只要1个即可
点赞
送花
回复
分享
发布于 2022-11-14 07:58 广东
这个dp数组的描述有问题,dp[i][j]表示,s1[0:i]、s2[0:j]包含s1[i]和s2[j]的最大子串的长度。 要是这两不相等,自然就是0。
点赞
送花
回复
分享
发布于 2023-06-03 01:36 广东
觉得这个动态规划跟遍历一样。
点赞
送花
回复
分享
发布于 2023-06-15 19:12 广东
dp[i][j]表示这两个子串s1[i-max:i]=s2[j-max:j] ,其中s[a:b]表示从索引a到b-1切片 比如两个子串abcd abce, 意思是abc=abc,abcd和abce的公共子串为0,因为是从d和e往左开始对比的
点赞
送花
回复
分享
发布于 03-25 11:32 浙江

相关推荐

点赞 评论 收藏
转发
中电45所 测试开发岗 可以解决北京户口,提供员工宿舍,早 8 晚 5(不过一般会加班到7-8点,周六一般也会去,面试官说的) 硕士
点赞 评论 收藏
转发
56 14 评论
分享
牛客网
牛客企业服务