Golang 中獲取字符個數以及 emoji 表情處理

jopen 10年前發布 | 33K 次閱讀 Google Go/Golang開發 Golang

在 Ruby 中，我們可以直接調用 str.length 來判斷字符串的長度。

在 Golang 中，不能直接調用 len 函數來統計字符串字符長度，這是因為在 Go 中，字符串是以 UTF-8 為格式進行存儲的，在字符串上調用 len 函數，取得的是字符串包含的 byte 的個數。

例如字符串："Hello, 世界" 包含 9 個字符。使用 len("Hello, 世界") 得到的結果為 13，因為這個字符串占用 13 個字節：

s := "Hello, 世界"
fmt.Println(len(s)) // 13
fmt.Println([]byte(s)) // [72 101 108 108 111 44 32 228 184 150 231 149 140]

那么如何統計 Golang 字符串長度呢？有下面幾種方法：

- 使用 bytes.Count() 統計
- 使用 strings.Count() 統計
- 將字符串轉換為 []rune 后調用 len 函數進行統計
- 使用 utf8.RuneCountInString() 統計

對應代碼如下：

package count

import "bytes"
import "strings"
import "unicode/utf8"

func f1(s string) int {
    return bytes.Count([]byte(s), nil) - 1
}

func f2(s string) int {
    return strings.Count(s, "") - 1
}

func f3(s string) int {
    return len([]rune(s))
}

func f4(s string) int {
    return utf8.RuneCountInString(s)
}

用上面 4 個函數計算字符串"Hello, 世界" 都會得到正確的字符個數：9。那究竟哪個方法更好一些呢？做一下測試看看：

創建文件：count_test.go，內容如下：

package count

import "bytes"
import "strings"
import "unicode/utf8"
import "testing"

func f1(s string) int {
    return bytes.Count([]byte(s), nil) - 1
}

func f2(s string) int {
    return strings.Count(s, "") - 1
}

func f3(s string) int {
    return len([]rune(s))
}

func f4(s string) int {
    return utf8.RuneCountInString(s)
}

var s = "Hello, 世界"

func Benchmark1(b *testing.B) {
    for i := 0; i < b.N; i++ {
        f1(s)
    }
}

func Benchmark2(b *testing.B) {
    for i := 0; i < b.N; i++ {
        f2(s)
    }
}

func Benchmark3(b *testing.B) {
    for i := 0; i < b.N; i++ {
        f3(s)
    }
}

func Benchmark4(b *testing.B) {
    for i := 0; i < b.N; i++ {
        f4(s)
    }
}

在命令行中運行命令：go test count_test.go -bench ".*"，輸出如下內容：

testing: warning: no tests to run PASS Benchmark1 10000000 118 ns/op Benchmark2 20000000 63.7 ns/op Benchmark3 10000000 248 ns/op Benchmark4 20000000 59.9 ns/op ok command-line-arguments 6.635s從測試結果來看，速度最快的是utf8.RuneCountInString()。

另：大家應該都知道 MySQL >= 5.5.3版本才支持 emoji 表情，如果不做處理直接保存的話，會發生MySQL 異常：Error 1366: Incorrect string value: '\xF0\x9F\x98\x84\xF0\x9F...' for column如果要讓 DB 直接支持，只需要升級 MySQL 版本，然后字符集設置為utf8m4，注意：對于舊表必須將字段的字符也做utf8m4更改才能生效。

如果 MySQL 升級比較麻煩，那么我們還可以通過過濾 emoji 表情，不支持它的存儲來達到正常使用的效果。

// 過濾 emoji 表情
func FilterEmoji(content string) string {
    new_content := ""
    for _, value := range content {
        _, size := utf8.DecodeRuneInString(string(value))
        if size <= 3 {
            new_content += string(value)
        }
    }
    return new_content
}

來自：http://maiyang.github.io/golang/%E5%AD%97%E7%AC%A6%E4%B8%B2/emoji/%E8%A1%A8%E6%83%85/2015/06/16/golang-character-length/

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1434960897028.html

Google Go/Golang開發 Golang

Golang 中獲取字符個數以及 emoji 表情處理

相關經驗

相關資訊

相關文檔

目錄