今天学了一个后缀数组,还是挺好理解的。
因为我不会基数排序,所以只会
\(O(n \log ^ 2 n)\)的sort版。
首先,后缀数组就是把该字符串的所有后缀按字典序排序得到的一个数组。注意这个排序只有字典序一个关键字,跟长度无关。
比如ababa的后缀数组就是:5 3 1 4 2,对应的后缀为a, aba, ababa, ba, baba。
怎么求呢?
特别好理解。
就像st表一样倍增的求。
令
\(s[i][k]\)表示以
\(i\)为起点,长度为
\(2 ^ k\)的子串(如果
\(i + 2 ^ k > n\),则表示从
\(i\)开始的后缀)。
\(rank_k[i]\)表示他是第几小的。
那么如果要比较
\(s[i][k + 1]\)和
\(s[j][k + 1]\),只需比较
\(s[i][k], s[i + 2 ^ k][k]\)和
\(s[j][k], s[j + 2 ^ k][k]\)的排名。换句话说,这一次的排序。就是以
\(rank[s[i][k]]\)为第一关键字,
\(rank[s[i + 2 ^ k][k]]\)为第二关键字进行排序。
排完序后,再
\(O(n)\)扫一遍更新
\(rank\)数组。
分治每一层为
\(O(n \log n)\),一共
\(\log n\)层,所以总复杂度为
\(O(n \log ^ 2 n)\)。
#include #include #include #include #include #include #include #include #include #include using namespace std;#define enter puts("") #define space putchar(' ')#define Mem(a, x) memset(a, x, sizeof(a))#define In inlinetypedef long long ll;typedef double db;const int INF = 0x3f3f3f3f;const db eps = 1e-8;const int maxn = 1e6 + 5;inline ll read(){ ll ans = 0; char ch = getchar(), last = ' '; while(!isdigit(ch)) last = ch, ch = getchar(); while(isdigit(ch)) ans = (ans << 1) + (ans << 3) + ch - '0', ch = getchar(); if(last == '-') ans = -ans; return ans;}inline void write(ll x){ if(x < 0) x = -x, putchar('-'); if(x >= 10) write(x / 10); putchar(x % 10 + '0');}int n, k;char s[maxn];int sa[maxn], rnk[maxn], tp[maxn];In bool cmp(int i, int j){ if(rnk[i] != rnk[j]) return rnk[i] < rnk[j]; int x = i + k <= n ? rnk[i + k] : -1; int y = j + k <= n ? rnk[j + k] : -1; return x < y;}int main(){ scanf("%s", s + 1); n = strlen(s + 1); for(int i = 1; i <= n; ++i) sa[i] = i, rnk[i] = s[i]; //刚开始的rank可以直接用ASCII码 for(k = 1; k <= n; k <<= 1) { sort(sa + 1, sa + n + 1, cmp); for(int i = 1; i <= n; ++i) tp[sa[i]] = tp[sa[i - 1]] + (cmp(sa[i - 1], sa[i]) ? 1 : 0); for(int i = 1; i <= n; ++i) rnk[i] = tp[i]; } for(int i = 1; i <= n; ++i) write(sa[i]), space; enter; return 0;}