HDU - 3553:Just a String(后缀数组之求所有子串的第k大)
发布时间
阅读量:
阅读量
教练开设的专题课程包括了基础模板题和多校协作习题。话虽如此,这道题目确实费了不少心思。而后缀数组在应用领域范围内用途极为丰富。
个人感受显示,在解决许多问题时,采用二分法通常会非常有效。
尤其是这道题,在应用过程中达到了极高的水平。
题目大意:
给你一个串,求它所有子串的第k大(可重复)。
解题思路:
这道题目,首先我们要根据我们求出来的sa数组,因为我们sa数组是按字典序排好序的,所以理论上来说我们最小的子串应该是按照sa数组的顺序来的,但是这里要考虑当前i 和 i+1 的公共前缀。例如 BBC 正常来说 sa[1] 应该是 0,但是排第二小的不是BB而是B。因为公共前缀的关系,所以我们这里可以写一个函数处理出 从第一个 sa 到 pos个sa 一共包括多少个子串,函数部分在此不赘述了,可以看代码,会注释清楚,看代码应该比较容易理解。
这样的情形通过上述的分治法我们可以确定一个pos 也就是我们要找的答案应当位于sa[pos]这一部分之后
这里找到之后, 对k进行相应的处理, 即确定sa[pos]中第k大的数值.
下一步我们需要利用二分法的力量,在已经明确的答案左边界的基础上设定右边界的位置。当我们在处理右边界时,计算当前区间内包含多少个子串,并判断其数量是否超过给定的阈值k?最终找到正确的右边界即可完成整个过程。
大体思路是这样,但是代码中有许多细节需要注意一下。
除此之外,还有一种更为高效的方法可以通过堆结构来实现。具体操作为:将所有单字符元素初始化进堆中,然后进行k次出队操作,在每次操作中弹出最小值并将其后缀字符串重新加入堆中。这种方式特别适用于处理较大的k值问题(例如k=1e10),但在k较小的情况下(例如k<20)这种方法依然具有较高的计算效率)。
Ac代码:
#include<bits/stdc++.h>
#define rank ra
using namespace std;
const int maxn=2e5+10;
const int INF=1e9+7;
typedef long long ll;
char s[maxn];
ll k;
int n,sa[maxn],rank[maxn],height[maxn];
int t1[maxn],t2[maxn],r[maxn],c[maxn];
bool cmp(int *r,int a,int b,int l)
{
return r[a]==r[b] && r[a+l]==r[b+l];
}
void da(int str[],int sa[],int rank[],int height[],int n,int m)
{
n++;
int i,j,p,*x=t1,*y=t2;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[i]=str[i]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
for(int j=1;j<=n;j<<=1)
{
p=0;
for(int i=n-j;i<n;i++) y[p++]=i;
for(int i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
for(int i=0;i<m;i++) c[i]=0;
for(int i=0;i<n;i++) c[x[y[i]]]++;
for(int i=1;i<m;i++) c[i]+=c[i-1];
for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
swap(x,y);
p=1,x[sa[0]]=0;
for(int i=1;i<n;i++)
x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
if(p>=n) break;
m=p;
}
int k=0;
n--;
for(int i=0;i<=n;i++) rank[sa[i]]=i;
for(int i=0;i<n;i++)
{
if(k) k--;
j=sa[rank[i]-1];
while(str[i+k]==str[j+k]) k++;
height[rank[i]]=k;
}
}
ll check(int pos) //计算对于1到pos共有多少子串
{
ll res=0;
int now=INF;
for(int i=1;i<=pos;i++) res+=n-sa[i]; //小于pos直接加上个数 大于的话特殊处理相同前缀
for(int i=pos+1;i<=n;i++)
{
now=min(height[i],now);
res+=now;
}
return res;
}
ll count(int mid,int pos) //找到以mid结尾的子串个数
{
ll res=mid-height[pos]; //直接加上子串个数
int now=mid;
for(int i=pos+1;i<=n;i++) //找出相同前缀的子串
{
now=min(now,height[i]);
if(now<=height[pos]) break;
res+=now-height[pos];
}
return res;
}
void slove(ll x,int pos)
{
int l=height[pos]+1,r=n-sa[pos],res=0; //注意二分的边界,因为height已经是算在height[i-1]里面的子串
while(l<=r)
{
int mid=(l+r)>>1;
if(count(mid,pos)>=x) res=mid,r=mid-1;
else l=mid+1;
}
for(int i=sa[pos];i<sa[pos]+res;i++) printf("%c",s[i]);
printf("\n");
}
int main()
{
int QAQ,kase=0;
scanf("%d",&QAQ);
while(QAQ--)
{
scanf(" %s%lld",s,&k);
int ls=strlen(s);
for(int i=0;i<ls;i++) r[i]=s[i];
r[ls]=0,n=ls;
da(r,sa,rank,height,n,128);
int l=0,r=n,pos=0;
while(l<=r) //二分找到pos
{
int mid=(l+r)>>1;
if(check(mid)>=k) pos=mid,r=mid-1;
else l=mid+1;
}
ll x=0;
if(pos>1) x=k-check(pos-1); //把k处理一下
else x=k;
printf("Case %d: ",++kase);
slove(x,pos);
}
return 0;
}
全部评论 (0)
还没有任何评论哟~
