给定一个字符串,求出其最长的重复子串。_腾讯笔试题

推荐

香蕉牛奶

举例： ask not what your country can do for you ,but what you can do for your country

最长的重复子序列：can do for you

思路：使用后缀数组解决

分析：

1、由于要求最长公共子序列，则需要 找到字符串的所有子序列 ，即通过产生字符串的后缀数组实现。

2、由于要求最长的重复子序列，则需要对所有子序列进行排序，这样可以把 相同的字符串排在一起 。

3、比较 相邻字符串 ，找出两个子串中，相同的字符的个数。

注意，对于一个子串，一个与其重复最多的字符串肯定是紧挨着自己的两个字符串。

步骤：

1、对待处理的字符串 产生后缀数组

2、 对后缀数组排序

3、依次 检测相邻两个后缀的公共长度

4、 取出最大 公共长度 的前缀

举例：输入字符串 banana

1、字符串产生的后缀数组：
a[0]:banana
a[1]:anana
a[2]:nana
a[3]:ana
a[4]:na
a[5]:a

2、对后缀数组进行快速排序，以将后缀相近的（变位词）子串集中在一起

a[0]:a
a[1]:ana
a[2]:anana
a[3]:banana
a[4]:na
a[5]:nana

之后可以依次检测相邻两个后缀的公共长度并取出最大公共的前缀

代码：

/*给定出一个字符串，输出最长的重复子字符串*/
#include <iostream>
#include <algorithm>
#include <string>
using namespace std;
const int MaxCharNum = 5000000;
bool StrCmp(char* str1,char* str2);
void GenSuffixArray(char* str,char* suffixStr[]);
int ComStrLen(char* str1,char* str2);
void GenMaxReStr(char* str);
int main()
{
char str[MaxCharNum];
cin.getline(str,MaxCharNum);//遇到回车结束
GenMaxReStr(str);
system("pause");
return 1;
}
void GenMaxReStr(char* str)
{
int len = strlen(str);
int comReStrLen = 0;
int maxLoc = 0;
int maxLen = 0;
char* suffixStr[MaxCharNum];
GenSuffixArray(str,suffixStr);//产生后缀数组
//对后缀数组进行排序
sort(suffixStr,suffixStr+len,StrCmp);
//统计相邻单词中相同的字符数，并输出结果
for (int i = 0;i < len-1;i++ )
{
comReStrLen = ComStrLen(suffixStr[i],suffixStr[i+1]);
if (comReStrLen > maxLen)
{
maxLoc = i;
maxLen = comReStrLen;
}
}
//输出结果
for (int i = 0;i < maxLen;i++)
{
cout<<suffixStr[maxLoc][i];
}
cout<<endl;
}
/*为字符串产生其后缀数组，并存放到数组suffixStr中*/
void GenSuffixArray(char* str,char* suffixStr[])
{
int len = strlen(str);
for (int i = 0;i < len;i++)
{
suffixStr[i] = &str[i];
}
}
/*返回str1和str2的共同前缀的长度*/
int ComStrLen(char* str1,char* str2)
{
int comLen = 0;
while(*str1 && *str2)
{
if (*str1 == *str2)
{
comLen++;
}
str1++;
str2++;
}
return comLen;
}
//字符串升序排序
bool StrCmp(char* str1,char* str2)
{
if (strcmp(str1,str2) >=0 )
{
return false;
}
return true;
}

程序输入：ask not what your country can do for you,but what you can do for your country

输出：can do for you

时间复杂度分析：产生后缀数组-时间复杂度O(N)、对后缀数组排序是O(N*NlogN)，第一个N表示字符串的比较，后面NlogN使用快排排序。依次检测相邻两个后缀的公共长度-时间复杂度O(N*N)、取出最大公共长度的前缀-时间复杂度O(N)。

总的时间复杂度是O(N*NlogN)

编辑于 2015-02-09 17:26:03 回复(2)

zzoecode

#include <iostream>
#include <string>
#include <vector>
#include <algorithm>
using namespace std;

//给定一个字符串,求出其最长的重复子串
//方法一
string lsubstr_1(const string & str)
{ 
	vector<string> vs;
	for (int i = 0; i < str.size(); i++)
		vs.push_back(str.substr(i));
	sort(vs.begin(), vs.end());
	int max = 0;
	int flag = 0;
	for (int i = 0; i <( vs.size()-1); i++)
	{
		int j = 0;
		while (vs[i][j] == vs[i + 1][j] && j<vs[i].size() && j<vs[i+1].size())
			j++;
		if (j>max)
		{
			max = j;
			flag = i;
		}			
	}
	return vs[flag].substr(0, max);
}

//方法二
string lsubstr_2(const string & str)
{
	string maxstr;
	for (int i = 0; i < str.size();i++)
	for (int j = (str.size() - i); j >=1 ; j--)
	{
		string subs = str.substr(i, j);
		int front = str.find(subs);
		int back = str.rfind(subs);
		if (front != back && subs.size() > maxstr.size())
			maxstr = subs; 
	}
	return maxstr;
}

//方法三
string lsubstr_3(const string & str)
{
	string maxstr;
	for (int i = 0; i < str.size(); i++)
		for (int j = 0; j < i; j++)
		{
			string temp;
			int k = j;
			int m = i;
			while (str[m] == str[k] && i<str.size() && k<str.size())
			{
				m++; k++;
			}
			temp = str.substr(j, k - j);
			if (temp.size()>maxstr.size())
				maxstr = temp;
		}
	return maxstr;
}

void main(void)
{
	string test;
	//cin >> test;
	getline(cin, test);
	cout << lsubstr_1(test) << endl;
	cout << lsubstr_2(test) << endl;
	cout << lsubstr_3(test) << endl;
}

发表于 2015-09-03 13:26:58 回复(2)

zt_xcyk




string FindStr(const string &str)
{
	string temp, MaxStr;
	int MaxLen = 0;
	for (int i = 0; i < str.length(); ++i)
	{
		for (int j = str.length() -i; j != 0; --j)
		{
			temp = str.substr(i, j);
			int front = str.find(temp);
			int behind = str.rfind(temp);
			int templen = temp.length();
			if (front != behind&&templen > MaxLen)
			{
				MaxStr = temp;
				MaxLen = templen;
			}
		}
	}
	return MaxStr;
}

编辑于 2017-02-07 19:16:01 回复(9)

Reyzal

循环去掉前面i个字符。

剩下的用KMP求next数组算法。

数组中最大值就是最长重复。

这个复杂度怎么样？

求next 复杂度 n

大循环n次

总复杂度

n平方

发表于 2017-04-02 13:29:58 回复(0)

sky怒了

import java.util.Scanner;

public class Main{

public static void maxStr(String string){

char[] str = string.toCharArray();

if(str==null) return;

int max = 0;

int frist = 0;

int count = 0;

//其中i表示每次循环设定的字符串比较间隔（1,2,3。。。）。j表示遍历字符串数组。

for(int i=1;i<str.length;i++)

for(int k=0,j=0;j<str.length-i;j++){

if(str[j]==str[i+j]) k++;

else k=0;

if(k>max) {

max = k;

frist = j-k+1;

}

if(max>0){

System.out.println(max);

for(;count<max;count++){

System.out.print(str[frist+count]);

}

public static void main(String[] args) {

Scanner scanner = new Scanner(System.in);

while (scanner.hasNext()) {

String str = scanner.nextLine();

maxStr(str);

}

发表于 2016-08-26 11:06:43 回复(0)

zengzhihua

public class MaxReStr {
	public String findStr(String s){
		if(s==null){
			return null;
		}
		//最长重复子串的长度
		int max=0;
		//最长重复子串的第一个字符在s中的下标
		int first=0;
		String res = null;
		//i为每次循环设定的字符串比较间隔：1,2，...，s.length()-1
		for(int i=1;i<s.length();i++){
			for(int k=0,j=0;j<s.length()-i;j++){
				if(s.charAt(j)==s.charAt(j+i))
					k++;
				else
					k=0;
				if(k>max){
					max=k;
					first=j-max+1;
				}
			}
			if(max>0){
				res = s.substring(first, first+max);
			}
		}
		return res;
	}
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		String s = "eabcdabcf";
		System.out.println(new MaxReStr().findStr(s));
	}
}

输出为 abc

发表于 2015-09-02 19:50:44 回复(2)

coco酱是个程序媛哟

#include <stdlib.h>
#include <stdio.h>

#define MaxChar 5000
char a[MaxChar];
char *post[MaxChar];

int pstrcmp(const void *p1, const void *p2)
{
    return strcmp(*(char* const *)p1, *(char* const *)p2);
}

//求排序后相邻两个串的最长公共前缀
int common_len(char *p, char *q)
{
    int k = 0;
    while(*p && (*p++ == *q++))
        k++;
    return k;
}

int main()
{
    char ch;
    int i = 0, j;
    int temp;
    int max = 0, max_index = 0;
    while((ch = getchar()) != '\n')
    {
        post[i] = &a[i];//将后缀式的指针指向该后缀式的第一个字符
        a[i++] = ch;
    }
    a[i] = '\0';

    qsort(post, i, sizeof(char *), pstrcmp);//对所有后缀式进行排序

    for(j = 0; j < i - 1; j++)
    {
        temp = common_len(post[j], post[j+1]);
        if(max < temp)
        {
            max = temp;
            max_inde敏感词rintf("%d %s\n", max, post[max_index]);
    return 0;
}

发表于 2015-09-02 13:53:23 回复(0)

Zack6514

O(n^3)

#include <iostream>
#include <string>
using namespace std;
int main(){
    string s;
    cin >> s;
    int len = 0;
    for(int i = 0; i < s.size(); i++){
        for(int j = s.size()-i; j >= i; j--){
            string str = s.substr(i, j);
            int front = s.find(str);
            int back = s.rfind(str);
            if(front != back && j > len){
                len = j;
            }
        }
    }
    cout << len << endl;
    return 0;
}

编辑于 2015-09-01 22:18:42 回复(0)

nurnoch

一个简单的实现，时间复杂度为O(n³)

string longestRepeatStr(string str) {
    int n = str.length();
    for(int i = n - 1; i > 0; --i)
         for(int j = 0; j < n; ++j) {
             if(i + j < n) {
                string cur = str.substr(j,i);
                int index1 = str.find(cur); // 从前往后找
                int index2 = str.rfind(cur); // 从后往前找
                if(index1 != index2)
                    return cur;
            }
        }
}

发表于 2015-08-29 11:53:51 回复(3)

好人Zakilo

传送门：《编程珠玑（第2版）》15.2章节“短语”。采用后缀数组。空间O(n^2)，时间O(n*logn)

发表于 2015-09-05 15:00:01 回复(0)

SamZ^

int longest = 0;
int currentLongest = 0;
for(int i = 1; i < array.size();i++){
    if(array[i]==array[i-1]){
        currentLongest++;
    }
    else{
        currentLongest = 0;
    }
    if(currentLongest >= longest)
    {
        longest = currentLongest;
    }
}

return longest;

发表于 2018-08-30 16:24:18 回复(0)

zrainy

有个疑问。

请问各位大佬，按照参考答案中"ana"和“anana”最大公共长度的不是ana吗？

那最后得出的不应该是ana？（虽然这是个明显错误的答案，但是逻辑上我有点绕不过来……不明白为什么）

发表于 2018-02-03 01:09:25 回复(0)

熊小大熊

下面说明为什么(rand7()-1)*7+rand7()可以构造出均匀分布在1-49的随机数:
首先rand7()-1得到一个离散整数集合{0，1，2，3，4，5，6}，其中每个整数的出现概率都是1/7。那么(rand7()-1)*7得到一个离散整数集合A={0，7，14，21，28，35，42}，其中每个整数的出现概率也都是1/7。而rand7()得到的集合B={1，2，3，4，5，6，7}中每个整数出现的概率也是1/7。显然集合A和B中任何两个元素组合可以与1-49之间的一个整数一一对应，也就是说1-49之间的任何一个数，可以唯一确定A和B中两个元素的一种组合方式，反过来也成立。由于A和B中元素可以看成是独立事件，根据独立事件的概率公式P(AB)=P(A)P(B)，得到每个组合的概率是1/7*1/7=1/49。因此(rand7()-1)*7+rand7()生成的整数均匀分布在1-49之间，每个数的概率都是1/49。

程序：

    
                int rand7()        

                {        

                    int x=0;        

                    do        

                    {        

                        x=(rand7()-1)*7+rand7();        

                    }        

                    while(x>40);        

                    return x%10+1;        

                }

发表于 2017-03-29 13:16:59 回复(0)

牛客370652号

#include <iostream>

#include <string>

using namespace std;

int main()

{

string input;

while(getline(cin, input))

{

int len = input.length();

if(len < 1)

continue;

int max_len = 1;

int curr_len = 1;

for(int i = 1; i < len; i++)

{

if(input[i] == input[i - 1])

curr_len++;

else

curr_len = 1;

if(curr_len > max_len)

max_len = curr_len;

}

cout << max_len << endl;

}

return 0;

}

发表于 2016-08-07 11:19:37 回复(0)

BATS

http://blog.csdn.net/qunqin/article/details/7312295

发表于 2015-09-08 12:14:35 回复(0)

牛客593605号

问个很LOW的问题，谁能讲讲排序的规则，C自学者一枚。。

发表于 2015-09-06 15:45:07 回复(0)

子&#不语

<div> #include<stdio.h> </div> <p> void LongChar(char* str)<br /> {<br />  if(str==NULL)<br />   return;<br />  int max=0;<br />  int first=0;<br />  int count=0;<br />  for(int i=1;i<strlen(str);i++)<br />   for(int k=0,j=0;j<strlen(str)-i;j++)<br />   {<br />    if(str[j]==str[i+j])k++;<br />    else<br />     k=0;<br />    if(k>max)<br />    {<br />     max=k;<br />     first=j-k+1;<br />    } </p> <p>   }<br />   if(max>0)<br />   {<br />    cout<<"long:"<<max<<endl;<br />    for(;count<max;count++)<br />     cout<<str[first+count];<br />     cout<<endl;<br />   }<br /> } </p> <div> int main()<br /> {  </div> <div>      string a[200]; </div> <div>     printf("请输入一个字符串："); </div> <div>     gets(a); </div> <div>      char* str=a; </div> <div>      LongChar(str);<br />  return 0;<br /> } </div>

发表于 2015-09-05 11:59:14 回复(0)

什么都不会

#include <iostream>
#include <string>
#include <cstdio>
using namespace std;

int main()
{
	freopen("test.txt", "r", stdin);

	string str;
	while(cin>>str)
	{
		string maxStr;
		for(int i = 0; i < str.size(); i++)
		{
			for(int j = (str.size() - i); j >= 1; j--)
			{
				string subStr = str.substr(i, j);
				int start = str.find(subStr);
				int end = str.rfind(subStr);

				if(start + subStr.size() <= end && maxStr.size() < subStr.size())
					maxStr = subStr;
			}
		}
		cout<<maxStr<<endl;
	}
	return 0;
}

发表于 2015-09-04 19:41:40 回复(0)

huoyao

构造一颗后缀树，在构造的过程中就能记录最长的重复序列。

构造后缀树的时间复杂度O(n^2)，最终的时间复杂度为O(n^2)

发表于 2015-09-02 21:53:39 回复(0)

幻影迷风

KMP

发表于 2015-09-01 16:57:03 回复(0)

CodeSheep

string findString( string& s ){

	if( s.length() < 2 )
		return s;

	int index = 0;

	string res;
	int maxLen = 0;
	int len = s.length();

	for ( ; index<len-1; ++index ) {

		int j = index+1;

		while( s[index] != s[j] && j<len )
			++j;

		int count = 0;
		string tmp;

		if( j!=len ){

			int i = index;

			while( s[i] == s[j] ){

				++count;
				tmp.push_back( s[i] );
				++i; 
				++j;
			}

			if( count>maxLen ){

				maxLen = count;
				res.swap( tmp );
				tmp.clear();
			}
		}
	}

	return res;
}

发表于 2015-08-31 23:07:25 回复(0)

给定一个字符串,求出其最长的重复子串。

问题信息

热门推荐

相关试题