javascript 最長公共子序列
最長公共子序列(Longest Common Subsequence LCS)是從給定的兩個序列X和Y中取出盡可能多的一部分字符,按照它們在原序列排列的先后次序排列得到。LCS問題的算法用途廣泛,如在軟件不同版本的管理中,用LCS算法找到新舊版本的異同處;在軟件測試中,用LCS算法對錄制和回放的序列進行比較,在基因工程領域,用LCS算法檢查患者DNA連與鍵康DNA鏈的異同;在防抄襲系統中,用LCS算法檢查論文的抄襲率。LCS算法也可以用于程序代碼相似度度量,人體運行的序列檢索,視頻段匹配等方面,所以對LCS算法進行研究具有很高的應用價值。
基本概念
- 子序列(subsequence): 一個特定序列的子序列就是將給定序列中零個或多個元素去掉后得到的結果(不改變元素間相對次序)。例如序列<A,B,C,B,D,A,B>的子序列有:<A,B>、<B,C,A>、<A,B,C,D,A>等。
- 公共子序列(common subsequence): 給定序列X和Y,序列Z是X的子序列,也是Y的子序列,則Z是X和Y的公共子序列。例如X=[A,B,C,B,D,A,B],Y=[B,D,C,A,B,A[,那么序列Z=[B,C,A]為X和Y的公共子序列,其長度為3。但Z不是X和Y的最長公共子序列,而序列[B,C,B,A]和[B,D,A,B]也均為X和Y的最長公共子序列,長度為4,而X和Y不存在長度大于等于5的公共子序列。對于序列[A,B,C]和序列[E,F,G]的公共子序列只有空序列[]。
- 最長公共子序列:給定序列X和Y,從它們的所有公共子序列中選出長度最長的那一個或幾個。
- 子串: 將一個序列從最前或最后或同時刪掉零個或幾個字符構成的新系列。區別與子序列,子序列是可以從中間摳掉字符的。cnblogs這個字符串中子序列有多少個呢?很顯然有27個,比如其中的cb,cgs等等都是其子序列
給一個圖再解釋一下:
我們可以看出子序列不見得一定是連續的,連續的是子串。
問題分析
我們還是從一個矩陣開始分析,自己推導出狀態遷移方程。
首先,我們把問題轉換成前端夠為熟悉的概念,不要序列序列地叫了,可以認為是數組或字符串。一切從簡,我們就估且認定是兩個字符串做比較吧。
我們重點留意”子序列“的概念,它可以刪掉多個或零個,也可以全部干掉。這時我們的第一個子序列為 空字符串 (如果我們的序列不是字符串,我們還可以 )!這個真是千萬要注意到!許多人就是看不懂《算法導論》的那個圖表,還有許多博客的作者不懂裝懂。我們總是從左到右比較,當然了第一個字符串,由于作為矩陣的高,就垂直放置了。
x | "" | B | D | C | A | B | A | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
"" | |||||||||||||
A | |||||||||||||
B | |||||||||||||
C | |||||||||||||
D | |||||||||||||
A | |||||||||||||
B |
假令X = "ABCDAB", Y="BDCABA",各自取出最短的序列,也就是空字符串與空字符串比較。LCS的方程解為一個數字,那么這個表格也只能填數字。兩個空字符串的公同區域的長度為0.
x | "" | B | D | C | A | B | A | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
"" | 0 | ||||||||||||
A | |||||||||||||
B | |||||||||||||
C | |||||||||||||
D | |||||||||||||
A | |||||||||||||
B |
然后我們X不動,繼續讓空字符串出陣,Y讓“B”出陣,很顯然,它們的公共區域的長度為0. Y換成其他字符, D啊,C啊, 或者, 它們的連續組合DC、 DDC, 情況沒有變, 依然為0. 因此第一行都為0. 然后我們Y不動,Y只出空字任串,那么與上面的分析一樣,都為0,第一列都是0.
x | "" | B | D | C | A | B | A | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
"" | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ||||||
A | 0 | ||||||||||||
B | 0 | ||||||||||||
C | 0 | ||||||||||||
D | 0 | ||||||||||||
A | 0 | ||||||||||||
B | 0 |
LCS問題與背包問題有點不一樣,背包問題還可以設置-1行,而最長公共子序列因為有空子序列的出現,一開始就把左邊與上邊固定死了。
然后我們再將問題放大些,這次雙方都出一個字符,顯然只有兩都相同時,才有存在不為空字符串的公共子序列,長度也理解數然為1。
A為"X", Y為"BDCA"的子序列的任意一個
x | "" | B | D | C | A | B | A | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
"" | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ||||||
A | 0 | 0 | 0 | 0 | 1 | ||||||||
B | 0 | ||||||||||||
C | 0 | ||||||||||||
D | 0 | ||||||||||||
A | 0 | ||||||||||||
B | 0 |
繼續往右填空,該怎么填?顯然,LCS不能大于X的長度,Y的從A字符串開始的子序列與B的A序列相比,怎么也能等于1。
x | "" | B | D | C | A | B | A | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
"" | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ||||||
A | 0 | 0 | 0 | 0 | 1 | 1 | 1 | ||||||
B | 0 | ||||||||||||
C | 0 | ||||||||||||
D | 0 | ||||||||||||
A | 0 | ||||||||||||
B | 0 |
如果X只從派出前面個字符A,B吧,亦即是“”,“A”, "B", "AB"這四種組合,前兩個已經解說過了。那我們先看B,${X_1} == ${Y_0}, 我們得到一個新的公共子串了,應該加1。為什么呢?因為我們這個矩陣是一個狀態表,從左到右,從上到下描述狀態的遷移過程,并且這些狀態是基于已有狀態 累加 出來的。 現在我們需要確認的是,現在我們要填的這個格子的值與它周圍已經填好的格子的值是存在何種關系 。目前,信息太少,就是一個孤點,直接填1。
x | "" | B | D | C | A | B | A | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
"" | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ||||||
A | 0 | 0 | 0 | 0 | 1 | 1 | 1 | ||||||
B | 0 | 1 | |||||||||||
C | 0 | ||||||||||||
D | 0 | ||||||||||||
A | 0 | ||||||||||||
B | 0 |
然后我們讓Y多出一個D做幫手,{"",A,B,AB} vs {"",B,D,BD},顯然,繼續填1. 一直填到Y的第二個B之前,都是1。 因為到BDCAB時,它們有另一個公共子序列,AB。
x | "" | B | D | C | A | B | A | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
"" | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ||||||
A | 0 | 0 | 0 | 0 | 1 | 1 | 1 | ||||||
B | 0 | 1 | 1 | 1 | 1 | 2 | |||||||
C | 0 | ||||||||||||
D | 0 | ||||||||||||
A | 0 | ||||||||||||
B | 0 |
到這一步,我們可以總結一些規則了,之后就是通過計算驗證我們的想法,加入新的規則或限定條件來完善。
Y將所有字符派上去,X依然是2個字符,經仔細觀察,還是填2.
看五行,X再多派一個C,ABC的子序列集合比AB的子序列集合大一些,那么它與Y的B子序列集合大一些,就算不大,就不能比原來的小。顯然新增的C不能成為戰力,不是兩者的公共字符,因此值應該等于AB的子序列集合。
× | "" | B | D | C | A | B | A | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
"" | 0 | 0 | 0 | 0 | 0 | 0 | 0 | ||||||
A | 0 | 0 | 0 | 0 | 1 | 1 | 1 | ||||||
B | 0 | 1 | 1 | 1 | 1 | 2 | 2 | ||||||
C | 0 | 1 | |||||||||||
D | 0 | ||||||||||||
A | 0 | ||||||||||||
B | 0 |
并且我們可以確定,如果兩個字符串要比較的字符不一樣,那么要填的格子是與其左邊或上邊有關,那邊大就取那個。
如果比較的字符一樣呢,稍安毋躁,剛好X的C要與Y的C進行比較,即ABC的子序列集合{"",A,B,C,AB,BC,ABC}與BDC的子序列集合{"",B,D,C,BD,DC,BDC}比較,得到公共子串有“”,B,D 。這時還是與之前的結論一樣,當字符相等時,它對應的格子值等于左邊與右邊與左上角的值,并且左邊,上邊,左上邊總是相等的。這些奧秘需要更嚴格的數學知識來論證。
假設有兩個數組,A和B。A[i]為A的第i個元素,A(i)為由A的第一個元素到第i個元素所組成的前綴。m(i, j)為A(i)和B(j)的最長公共子序列長度。
由于算法本身的遞推性質,其實只要證明,對于某個i和j:
m(i, j) = m(i-1, j-1) + 1 (當A[i] = B[j]時)
m(i, j) = max( m(i-1, j), m(i, j-1) ) (當A[i] != B[j]時)
第一個式子很好證明,即當A[i] = B[j]時。可以用反證,假設m(i, j) > m(i-1, j-1) + 1 (m(i, j)不可能小于m(i-1, j-1) + 1,原因很明顯),那么可以推出m(i-1, j-1)不是最長的這一矛盾結果。
第二個有些trick。當A[i] != B[j]時,還是反證,假設m(i, j) > max( m(i-1, j), m(i, j-1) )。
由反證假設,可得m(i, j) > m(i-1, j)。這個可以推出A[i]一定在m(i, j)對應的LCS序列中(反證可得)。而由于A[i] != B[j],故B[j]一定不在m(i, j)對應的LCS序列中。所以可推出m(i, j) = m(i, j-1)。這就推出了與反正假設矛盾的結果。
得證。
我們現在用下面的方程來繼續填表了。
程序實現
//by 司徒正美
function LCS(str1, str2){
var rows = str1.split("")
rows.unshift("")
var cols = str2.split("")
cols.unshift("")
var m = rows.length
var n = cols.length
var dp = []
for(var i = 0; i < m; i++){
dp[i] = []
for(var j = 0; j < n; j++){
if(i === 0 || j === 0){
dp[i][j] = 0
continue
}
if(rows[i] === cols[j]){
dp[i][j] = dp[i-1][j-1] + 1 //對角+1
}else{
dp[i][j] = Math.max( dp[i-1][j], dp[i][j-1]) //對左邊,上邊取最大
}
}
console.log(dp[i].join(""))//調試
}
return dp[i-1][j-1]
}
LCS可以進一步簡化,只要通過挪位置,省去新數組的生成
//by司徒正美
function LCS(str1, str2){
var m = str1.length
var n = str2.length
var dp = [new Array(n+1).fill(0)] //第一行全是0
for(var i = 1; i <= m; i++){ //一共有m+1行
dp[i] = [0] //第一列全是0
for(var j = 1; j <= n; j++){//一共有n+1列
if(str1[i-1] === str2[j-1]){
//注意這里,str1的第一個字符是在第二列中,因此要減1,str2同理
dp[i][j] = dp[i-1][j-1] + 1 //對角+1
} else {
dp[i][j] = Math.max( dp[i-1][j], dp[i][j-1])
}
}
}
return dp[m][n];
}
打印一個LCS
我們再給出打印函數,先看如何打印一個。我們從右下角開始尋找,一直找到最上一行終止。因此目標字符串的構建是倒序。為了避免使用stringBuffer這樣麻煩的中間量,我們可以通過遞歸實現,每次執行程序時,只返回一個字符串,沒有則返回一個空字符串, 以 printLCS(x,y,...) + str[i] 相加,就可以得到我們要求的字符串。
我們再寫出一個方法,來驗證我們得到的字符串是否真正的LCS字符串。作為一個已經工作的人,不能寫的代碼像在校生那樣,不做單元測試就放到線上讓別人踩坑。
//by 司徒正美,打印一個LCS
function printLCS(dp, str1, str2, i, j){
if (i == 0 || j == 0){
return "";
}
if( str1[i-1] == str2[j-1] ){
return printLCS(dp, str1, str2, i-1, j-1) + str1[i-1];
}else{
if (dp[i][j-1] > dp[i-1][j]){
return printLCS(dp, str1, str2, i, j-1);
}else{
return printLCS(dp, str1, str2, i-1, j);
}
}
}
//by司徒正美, 將目標字符串轉換成正則,驗證是否為之前兩個字符串的LCS
function validateLCS(el, str1, str2){
var re = new RegExp( el.split("").join(".*") )
console.log(el, re.test(str1),re.test(str2))
return re.test(str1) && re.test(str2)
}
使用:
function LCS(str1, str2){
var m = str1.length
var n = str2.length
//....略,自行補充
var s = printLCS(dp, str1, str2, m, n)
validateLCS(s, str1, str2)
return dp[m][n]
}
var c1 = LCS( "ABCBDAB","BDCABA");
console.log(c1) //4 BCBA、BCAB、BDAB
var c2 = LCS("13456778" , "357486782" );
console.log(c2) //5 34678
var c3 = LCS("ACCGGTCGAGTGCGCGGAAGCCGGCCGAA" ,"GTCGTTCGGAATGCCGTTGCTCTGTAAA" );
console.log(c3) //20 GTCGTCGGAAGCCGGCCGAA
打印全部LCS
思路與上面差不多,我們注意一下,在LCS方法有一個Math.max取值,這其實是整合了三種情況,因此可以分叉出三個字符串。我們的方法將返回一個es6集合對象,方便自動去掉。然后每次都用新的集合合并舊的集合的字任串。
//by 司徒正美 打印所有LCS
function printAllLCS(dp, str1, str2, i, j){
if (i == 0 || j == 0){
return new Set([""])
}else if(str1[i-1] == str2[j-1]){
var newSet = new Set()
printAllLCS(dp, str1, str2, i-1, j-1).forEach(function(el){
newSet.add(el + str1[i-1])
})
return newSet
}else{
var set = new Set()
if (dp[i][j-1] >= dp[i-1][j]){
printAllLCS(dp, str1, str2, i, j-1).forEach(function(el){
set.add(el)
})
}
if (dp[i-1][j] >= dp[i][j-1]){//必須用>=,不能簡單一個else搞定
printAllLCS(dp, str1, str2, i-1, j).forEach(function(el){
set.add(el)
})
}
return set
}
}
使用:
function LCS(str1, str2){
var m = str1.length
var n = str2.length
//....略,自行補充
var s = printAllLCS(dp, str1, str2, m, n)
console.log(s)
s.forEach(function(el){
validateLCS(el,str1, str2)
console.log("輸出LCS",el)
})
return dp[m][n]
}
var c1 = LCS( "ABCBDAB","BDCABA");
console.log(c1) //4 BCBA、BCAB、BDAB
var c2 = LCS("13456778" , "357486782" );
console.log(c2) //5 34678
var c3 = LCS("ACCGGTCGAGTGCGCGGAAGCCGGCCGAA" ,"GTCGTTCGGAATGCCGTTGCTCTGTAAA" );
console.log(c3) //20 GTCGTCGGAAGCCGGCCGAA
空間優化
使用滾動數組:
function LCS(str1, str2){
var m = str1.length
var n = str2.length
var dp = [new Array(n+1).fill(0)],now = 1,row //第一行全是0
for(var i = 1; i <= m; i++){ //一共有2行
row = dp[now] = [0] //第一列全是0
for(var j = 1; j <= n; j++){//一共有n+1列
if(str1[i-1] === str2[j-1]){
//注意這里,str1的第一個字符是在第二列中,因此要減1,str2同理
dp[now][j] = dp[i-now][j-1] + 1 //對角+1
} else {
dp[now][j] = Math.max( dp[i-now][j], dp[now][j-1])
}
}
now = 1- now; //1-1=>0;1-0=>1; 1-1=>0 ...
}
return row ? row[n]: 0
}
危險的遞歸解法
str1的一個子序列相應于下標序列{1, 2, …, m}的一個子序列,因此,str1共有${2^m}$個不同子序列(str2亦如此,如為${2^n}$),因此復雜度達到驚人的指數時間(${2^m * 2^n}$)。
//警告,字符串的長度一大就會爆棧
function LCS(str1, str2, a, b) {
if(a === void 0){
a = str1.length - 1
}
if(b === void 0){
b = str2.length - 1
}
if(a == -1 || b == -1){
return 0
}
if(str1[a] == str2[b]) {
return LCS(str1, str2, a-1, b-1)+1;
}
if(str1[a] != str2[b]) {
var x = LCS(str1, str2, a, b-1)
var y = LCS(str1, str2, a-1, b)
return x >= y ? x : y
}
}
參考鏈接
- http://blog.csdn.net/hrn1216/...
- https://segmentfault.com/a/11...
- https://www.cnblogs.com/ider/...
- http://www.cppblog.com/mysile...
來自:https://segmentfault.com/a/1190000012864957