6

问答题 6 /86

给定一个字符串,求出其最长的重复子串。

参考答案

举例: ask not what your country  can do for you ,but what you can do for you country

最长的重复子序列:can do for you

思路:使用后缀数组解决

分析:

1、由于要求最长公共子序列,则需要 找到字符串的所有子序列 ,即通过产生字符串的后缀数组实现。

2、由于要求最长的重复子序列,则需要对所有子序列进行排序,这样可以把 相同的字符串排在一起

3、 比较 相邻字符串 ,找出两个子串中,相同的字符的个数。

注意,对于一个子串,一个与其重复最多的字符串肯定是紧挨着自己的两个字符串。

步骤:

1、对待处理的字符串 产生后缀数组

2、 对后缀数组排序

3、依次 检测相邻两个后缀的公共长度

4、 取出最大 公共长度 的前缀


举例: 输入字符串 banana

1、字符串产生的后缀数组:
a[0]:banana
a[1]:anana
a[2]:nana
a[3]:ana
a[4]:na
a[5]:a

2、对后缀数组进行快速排序,以将后缀相近的(变位词)子串集中在一起

a[0]:a
a[1]:ana
a[2]:anana
a[3]:banana
a[4]:na
a[5]:nana

之后可以依次检测相邻两个后缀的公共长度并取出最大公共的前缀

代码:

  1. /*给定出一个字符串,输出最长的重复子字符串*/
  2. #include <iostream>
  3. #include <algorithm>
  4. #include <string>
  5. using namespace std;
  6. const int MaxCharNum = 5000000;
  7. bool StrCmp(char* str1,char* str2);
  8. void GenSuffixArray(char* str,char* suffixStr[]);
  9. int ComStrLen(char* str1,char* str2);
  10. void GenMaxReStr(char* str);
  11. int main()
  12. {
  13. char str[MaxCharNum];
  14. cin.getline(str,MaxCharNum);//遇到回车结束
  15. GenMaxReStr(str);
  16. system("pause");
  17. return 1;
  18. }
  19. void GenMaxReStr(char* str)
  20. {
  21. int len = strlen(str);
  22. int comReStrLen = 0;
  23. int maxLoc = 0;
  24. int maxLen = 0;
  25. char* suffixStr[MaxCharNum];
  26. GenSuffixArray(str,suffixStr);//产生后缀数组
  27. //对后缀数组进行排序
  28. sort(suffixStr,suffixStr+len,StrCmp);
  29. //统计相邻单词中相同的字符数,并输出结果
  30. for (int i = 0;i < len-1;i++ )
  31. {
  32. comReStrLen = ComStrLen(suffixStr[i],suffixStr[i+1]);
  33. if (comReStrLen > maxLen)
  34. {
  35. maxLoc = i;
  36. maxLen = comReStrLen;
  37. }
  38. }
  39. //输出结果
  40. for (int i = 0;i < maxLen;i++)
  41. {
  42. cout<<suffixStr[maxLoc][i];
  43. }
  44. cout<<endl;
  45. }
  46. /*为字符串产生其后缀数组,并存放到数组suffixStr中*/
  47. void GenSuffixArray(char* str,char* suffixStr[])
  48. {
  49. int len = strlen(str);
  50. for (int i = 0;i < len;i++)
  51. {
  52. suffixStr[i] = &str[i];
  53. }
  54. }
  55. /*返回str1和str2的共同前缀的长度*/
  56. int ComStrLen(char* str1,char* str2)
  57. {
  58. int comLen = 0;
  59. while(*str1 && *str2)
  60. {
  61. if (*str1 == *str2)
  62. {
  63. comLen++;
  64. }
  65. str1++;
  66. str2++;
  67. }
  68. return comLen;
  69. }
  70. //字符串升序排序
  71. bool StrCmp(char* str1,char* str2)
  72. {
  73. if (strcmp(str1,str2) >=0 )
  74. {
  75. return false;
  76. }
  77. return true;
  78. }

程序输入:ask not what your country can do for you,but what you can do for your country

输出:can do for you

时间复杂度分析:产生后缀数组-时间复杂度O(N)、对后缀数组排序是O(N*NlogN),第一个N表示字符串的比较,后面NlogN使用快排排序。依次检测相邻两个后缀的公共长度-时间复杂度O(N*N)、取出最大公共长度的前缀-时间复杂度O(N)。

总的时间复杂度是O(N*NlogN)