Advertisement

HDU - 3553:Just a String(后缀数组之求所有子串的第k大)

阅读量:

教练开设的专题课程包括了基础模板题和多校协作习题。话虽如此,这道题目确实费了不少心思。而后缀数组在应用领域范围内用途极为丰富。

个人感受显示,在解决许多问题时,采用二分法通常会非常有效。
尤其是这道题,在应用过程中达到了极高的水平。

题目大意:

给你一个串,求它所有子串的第k大(可重复)。

解题思路:

这道题目,首先我们要根据我们求出来的sa数组,因为我们sa数组是按字典序排好序的,所以理论上来说我们最小的子串应该是按照sa数组的顺序来的,但是这里要考虑当前i 和 i+1 的公共前缀。例如 BBC 正常来说 sa[1] 应该是 0,但是排第二小的不是BB而是B。因为公共前缀的关系,所以我们这里可以写一个函数处理出 从第一个 sa 到 pos个sa 一共包括多少个子串,函数部分在此不赘述了,可以看代码,会注释清楚,看代码应该比较容易理解。

这样的情形通过上述的分治法我们可以确定一个pos 也就是我们要找的答案应当位于sa[pos]这一部分之后

这里找到之后, 对k进行相应的处理, 即确定sa[pos]中第k大的数值.

下一步我们需要利用二分法的力量,在已经明确的答案左边界的基础上设定右边界的位置。当我们在处理右边界时,计算当前区间内包含多少个子串,并判断其数量是否超过给定的阈值k?最终找到正确的右边界即可完成整个过程。

大体思路是这样,但是代码中有许多细节需要注意一下。

除此之外,还有一种更为高效的方法可以通过堆结构来实现。具体操作为:将所有单字符元素初始化进堆中,然后进行k次出队操作,在每次操作中弹出最小值并将其后缀字符串重新加入堆中。这种方式特别适用于处理较大的k值问题(例如k=1e10),但在k较小的情况下(例如k<20)这种方法依然具有较高的计算效率)。

Ac代码:

复制代码
 #include<bits/stdc++.h>

    
 #define rank ra
    
 using namespace std;
    
 const int maxn=2e5+10;
    
 const int INF=1e9+7;
    
 typedef long long ll;
    
 char s[maxn];
    
 ll k;
    
 int n,sa[maxn],rank[maxn],height[maxn];
    
 int t1[maxn],t2[maxn],r[maxn],c[maxn];
    
 bool cmp(int *r,int a,int b,int l)
    
 {
    
     return r[a]==r[b] && r[a+l]==r[b+l];
    
 }
    
 void da(int str[],int sa[],int rank[],int height[],int n,int m)
    
 {
    
     n++;
    
     int i,j,p,*x=t1,*y=t2;
    
     for(int i=0;i<m;i++) c[i]=0;
    
     for(int i=0;i<n;i++) c[x[i]=str[i]]++;
    
     for(int i=1;i<m;i++) c[i]+=c[i-1];
    
     for(int i=n-1;i>=0;i--) sa[--c[x[i]]]=i;
    
     for(int j=1;j<=n;j<<=1)
    
     {
    
     p=0;
    
     for(int i=n-j;i<n;i++) y[p++]=i;
    
     for(int i=0;i<n;i++) if(sa[i]>=j) y[p++]=sa[i]-j;
    
     for(int i=0;i<m;i++) c[i]=0;
    
     for(int i=0;i<n;i++) c[x[y[i]]]++;
    
     for(int i=1;i<m;i++) c[i]+=c[i-1];
    
     for(int i=n-1;i>=0;i--) sa[--c[x[y[i]]]]=y[i];
    
     swap(x,y);
    
     p=1,x[sa[0]]=0;
    
     for(int i=1;i<n;i++)
    
         x[sa[i]]=cmp(y,sa[i-1],sa[i],j)?p-1:p++;
    
     if(p>=n) break;
    
     m=p;
    
     }
    
     int k=0;
    
     n--;
    
     for(int i=0;i<=n;i++) rank[sa[i]]=i;
    
     for(int i=0;i<n;i++)
    
     {
    
     if(k) k--;
    
     j=sa[rank[i]-1];
    
     while(str[i+k]==str[j+k]) k++;
    
     height[rank[i]]=k;
    
     }
    
 }
    
 ll check(int pos)   //计算对于1到pos共有多少子串
    
 {
    
     ll res=0;
    
     int now=INF;
    
     for(int i=1;i<=pos;i++) res+=n-sa[i];   //小于pos直接加上个数 大于的话特殊处理相同前缀
    
     for(int i=pos+1;i<=n;i++)
    
     {
    
     now=min(height[i],now);
    
     res+=now;
    
     }
    
     return res;
    
 }
    
 ll count(int mid,int pos)   //找到以mid结尾的子串个数
    
 {
    
     ll res=mid-height[pos]; //直接加上子串个数
    
     int now=mid;
    
     for(int i=pos+1;i<=n;i++)   //找出相同前缀的子串
    
     {
    
     now=min(now,height[i]);
    
     if(now<=height[pos]) break;
    
     res+=now-height[pos];
    
     }
    
     return res;
    
 }
    
 void slove(ll x,int pos)
    
 {
    
     int l=height[pos]+1,r=n-sa[pos],res=0;  //注意二分的边界,因为height已经是算在height[i-1]里面的子串
    
     while(l<=r)
    
     {
    
     int mid=(l+r)>>1;
    
     if(count(mid,pos)>=x) res=mid,r=mid-1;
    
     else l=mid+1;
    
     }
    
     for(int i=sa[pos];i<sa[pos]+res;i++) printf("%c",s[i]);
    
     printf("\n");
    
 }
    
 int main()
    
 {
    
     int QAQ,kase=0;
    
     scanf("%d",&QAQ);
    
     while(QAQ--)
    
     {
    
     scanf(" %s%lld",s,&k);
    
     int ls=strlen(s);
    
     for(int i=0;i<ls;i++) r[i]=s[i];
    
     r[ls]=0,n=ls;
    
     da(r,sa,rank,height,n,128);
    
     int l=0,r=n,pos=0;
    
     while(l<=r) //二分找到pos
    
     {
    
         int mid=(l+r)>>1;
    
         if(check(mid)>=k) pos=mid,r=mid-1;
    
         else l=mid+1;
    
     }
    
     ll x=0;
    
     if(pos>1) x=k-check(pos-1); //把k处理一下
    
     else x=k;
    
     printf("Case %d: ",++kase);
    
     slove(x,pos);
    
     }
    
     return 0;
    
 }

全部评论 (0)

还没有任何评论哟~