后缀数组(算法竞赛进阶指南 P64,字符串 Hash + 二分答案)

一.题目链接:

后缀数组

二.题目大意:

给字符串 s 的所有后缀按照字典序排序.

输出排序后的编号 和 排序后后缀数组 i 与 i - 1 的最大前缀长度.

三.分析:

如果直接用 sort 对每一个后缀排序,时间复杂度为 ,需要优化.

在 cmp 函数中,对于两个后缀 a,b 来讲,分别对应 s[a ~ n] 和 s[b ~ n].

那不妨求出第一个位置,使得 .

这点可用字符串 Hash 前缀 + 二分答案实现.

这样每次只比较 1 个字符,排序函数的复杂度降到了 

得到排序后的 SA 数组(记录编号)后,再同样二分前缀最大长度即可.

四.代码实现:

#include <set>
#include <map>
#include <ctime>
#include <queue>
#include <cmath>
#include <stack>
#include <bitset>
#include <vector>
#include <cstdio>
#include <sstream>
#include <cstring>
#include <cstdlib>
#include <iostream>
#include <algorithm>
#define eps 1e-8
#define lc k * 2
#define rc k * 2 + 1
#define pi acos(-1.0)
#define ll long long
#define ull unsigned long long
using namespace std;

const int M = (int)3e5;
const int mod = 99991;
const int inf = 0x3f3f3f3f;

char s[M + 5];
int SA[M + 5];
ull P[M + 5];
ull sum[M + 5];

int len;

ull get_h(int l, int r)
{
    return sum[r] - sum[l - 1] * P[r - l + 1];
}

int cal(int a, int b)
{
    int l = 0;
    int r = len - max(a, b) + 1;
    while(l < r)
    {
        int mid = (l + r + 1) >> 1;
        if(get_h(a, a + mid - 1) == get_h(b, b + mid - 1))
            l = mid;
        else
            r = mid - 1;
    }
    return r;
}

bool cmp(int a, int b)
{
    int x = cal(a, b);
    return s[a + x] < s[b + x];
}

/**
ponoiiipoi
**/

int main()
{
    scanf("%s", s + 1);
    len = strlen(s + 1);
    P[0] = 1;
    for(int i = 1; i <= len; ++i)
    {
        SA[i] = i;
        P[i] = P[i - 1] * 131;
        sum[i] = sum[i - 1] * 131 + s[i] - 'a' + 1;
    }
    sort(SA + 1, SA + len + 1, cmp);
    for(int i = 1; i <= len; ++i)
        printf("%d%c", SA[i] - 1, i == len ? '\n' : ' ');
    for(int i = 1; i <= len; ++i)
        printf("%d%c", cal(SA[i - 1], SA[i]), i == len ? '\n' : ' ');
    return 0;
}

 

全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务