C#字符串相似度比較

ybny 9年前發布 | 1K 次閱讀 C#

C#字符串相似度比較
編輯距離算法最先是由俄國科學家Levenshtein提出的,所以這個算法也叫做Levenshtein Distance算法。用最簡單的一句話來說明這個算法就是:通過插入、刪除、替換方法將字符串A變成字符串B所有的步驟就是算法中提到的編輯距離,最簡 單的相似度即編輯距離的倒數。

public class LevenshteinDistance 
{

#region 私有變量 
/// <summary> 
/// 字符串1 
/// </summary> 
private char[] _ArrChar1; 
/// <summary> 
/// 字符串2 
/// </summary> 
private char[] _ArrChar2; 
/// <summary> 
/// 統計結果 
/// </summary> 
private Result _Result; 
/// <summary> 
/// 開始時間 
/// </summary> 
private DateTime _BeginTime; 
/// <summary> 
/// 結束時間 
/// </summary> 
private DateTime _EndTime; 
/// <summary> 
/// 計算次數 
/// </summary> 
private int _ComputeTimes; 
/// <summary> 
/// 算法矩陣 
/// </summary> 
private int[,] _Matrix; 
/// <summary> 
/// 矩陣列數 
/// </summary> 
private int _Column; 
/// <summary> 
/// 矩陣行數 
/// </summary> 
private int _Row; 
#endregion 
#region 屬性 
public Result ComputeResult 
{ 
    get { return _Result; } 
} 
#endregion 
#region 構造函數 
public LevenshteinDistance(string str1, string str2) 
{ 
    this.LevenshteinDistanceInit(str1,str2); 
} 
public LevenshteinDistance() 
{ 
} 
#endregion 
#region 算法實現 
/// <summary> 
/// 初始化算法基本信息 
/// </summary> 
/// <param name="str1">字符串1</param> 
/// <param name="str2">字符串2</param> 
private void LevenshteinDistanceInit(string str1,string str2) 
{ 
    _ArrChar1 = str1.ToCharArray(); 
    _ArrChar2 = str2.ToCharArray(); 
    _Result = new Result(); 
    _ComputeTimes = 0; 
    _Row = _ArrChar1.Length + 1; 
    _Column = _ArrChar2.Length + 1; 
    _Matrix = new int[_Row, _Column]; 
} 
/// <summary> 
/// 計算相似度 
/// </summary> 
public void Compute() 
{ 
    //開始時間 
    _BeginTime = DateTime.Now; 
    //初始化矩陣的第一行和第一列 
    this.InitMatrix(); 
    int intCost = 0; 
    for (int i = 1; i < _Row; i++) 
    { 
        for (int j = 1; j < _Column; j++) 
        { 
            if (_ArrChar1[i - 1] == _ArrChar2[j - 1]) 
            { 
                intCost = 0; 
            } 
            else 
            { 
                intCost = 1; 
            } 
            //關鍵步驟,計算當前位置值為左邊+1、上面+1、左上角+intCost中的最小值  
            //循環遍歷到最后_Matrix[_Row - 1, _Column - 1]即為兩個字符串的距離 
            _Matrix[i, j] = this.Minimum(_Matrix[i - 1, j] + 1, _Matrix[i, j - 1] + 1, _Matrix[i - 1, j - 1] + intCost); 
            _ComputeTimes++; 
        } 
    } 
    //結束時間 
    _EndTime = DateTime.Now; 
    //相似率 移動次數小于最長的字符串長度的20%算同一題 
    int intLength = _Row > _Column ? _Row : _Column; 
    _Result.Rate = (1 - (double)_Matrix[_Row - 1, _Column - 1] / intLength).ToString().Substring(0, 6); 
    if (_Result.Rate.Length > 6) 
    { 
        _Result.Rate = _Result.Rate.Substring(0, 6); 
    } 
    _Result.UseTime = (_EndTime - _BeginTime).ToString(); 
    _Result.ComputeTimes = _ComputeTimes.ToString() + " 距離為:" + _Matrix[_Row - 1, _Column - 1].ToString(); 
} 
/// <summary> 
/// 計算相似度 
/// </summary> 
/// <param name="str1">字符串1</param> 
/// <param name="str2">字符串2</param> 
public void Compute(string str1,string str2) 
{ 
    this.LevenshteinDistanceInit(str1, str2); 
    this.Compute(); 
} 
/// <summary> 
/// 初始化矩陣的第一行和第一列 
/// </summary> 
private void InitMatrix() 
{ 
    for (int i = 0; i < _Column; i++) 
    { 
        _Matrix[0, i] = i; 
    } 
    for (int i = 0; i < _Row; i++) 
    { 
        _Matrix[i, 0] = i; 
    } 
} 
/// <summary> 
/// 取三個數中的最小值 
/// </summary> 
/// <param name="First"></param> 
/// <param name="Second"></param> 
/// <param name="Third"></param> 
/// <returns></returns> 
private int Minimum(int First, int Second, int Third) 
{ 
    int intMin = First; 
    if (Second < intMin) 
    { 
        intMin = Second; 
    } 
    if (Third < intMin) 
    { 
        intMin = Third; 
    } 
    return intMin; 
} 
#endregion 

} /// <summary> /// 計算結果 /// </summary> public struct Result { /// <summary> /// 相似度 /// </summary> public string Rate; /// <summary> /// 對比次數 /// </summary> public string ComputeTimes; /// <summary> /// 使用時間 /// </summary> public string UseTime; } </pre>

 本文由用戶 ybny 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!