MySQL 支持 emoji 圖標存儲

Lee6144 8年前發布 | 7K 次閱讀 MySQL 數據庫服務器

在 MySLQ 中 UPDATA 和 INSERT 數據的時候,如果數據上面帶有 emoji 圖標,例如: ? 、 ? 、 ? 很容易更新活著插入不成功,導致報錯。

Error: ER_TRUNCATED_WRONG_VALUE_FOR_FIELD: 
Incorrect string value: '\xF0\x9F\x91\xBD\xF0\x9F...' for column 'name' at row

都快崩潰了,但是還好終于解決了這種鬼問題。資料顯示原因是,MYSQL 5.5 之前, UTF8 編碼只支持1-3個字節,只支持 BMP 這部分的unicode編碼區,而 emoji 圖標恰好是4個字節的編碼進行存儲。從MYSQL5.5開始,可支持4個字節UTF編碼 utf8mb4 ,一個字符最多能有4字節,所以能支持更多的字符集。所以要解決問題,必需把數據庫表字符編碼全部改成 utf8mb4 。

常用字符集

  • ASCII:美國信息互換標準編碼;英語和其他西歐語言;單字節編碼,7位表示一個字符,共128字符。

  • GBK:雙字節,漢字內碼擴展規范;中日韓漢字、英文、數字;雙字節編碼;共收錄了21003個漢字,GB2312的擴展。

  • UTF-8:Unicode標準的可變長度字符編碼;Unicode標準(統一碼),業界統一標準,包括世界上數十種文字的系統;

  • UTF-8:使用一至三個字節為每個字符編碼。

  • utf8mb4:存儲四個字節,應用場景用于存儲 emoji 表情,因為可以 emoji 表情四個字節。

  • utf8mb4:MySQL版本 > 5.5.3 。

  • 其他常見字符集: UTF-32 , UTF-16 , Big5 , latin1

  • 數據庫中的字符集包含兩層含義

    • 各種文字和符號的集合,包括各國家文字、標點符號、圖形符號、數字等。

    • 字符的編碼方式,即二進制數據與字符的映射規則。

系統環境

  • MySQL 5.7.14

  • Mac OSX 10.11.6

首先備份

升級數據之前備份您服務器上的所有數據,保持良好習慣,安全第一!

升級您的MySQL

新的數據庫可以在這里下載 Upgrade the MySQL server to v5.5.3+

修改您的數據庫、表、字段

# 對每一個數據庫:
ALTER DATABASE 這里數據庫名字 CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;
# 對每一個表:
ALTER TABLE 這里是表名字 CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
# 對每一個字段:
ALTER TABLE 這里是表名字 CHANGE 字段名字 重復字段名字 VARCHAR(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
# 上面一句或者使用modify來更改
ALTER TABLE 這里是表名字 modify 字段名字 VARCHAR(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci DEFAULT '';

utf8mb4完全向后兼容utf8,無亂碼或其他數據丟失的形式出現。理論上是可以放心修改,如果您不放心修改,您可以拿備份恢復數據,然后讓程序員處理這種兼容 emoji 存儲問題,存的時候過濾一遍轉成 base64 ,然后取的時候轉回來?... 還是修改數據庫比較方便。

檢查你的字段和索引

不要將所有的都設置成 utf8mb4 ,這個冒得必要。我只在我某些字段類型為 VARCHAR 的時候才設置成 utf8mb4 。

修改MySQL配置文件

這個地方最坑,我在我Mac osx 系統上找不到 /etc/my.cnf 它根本不存在,所以我們需要創建這樣一個文件并修改它。

# 進入這個目錄,
# 在這個目錄下面有個后綴為`.cnf`的文件
cd /usr/local/mysql/support-files/

# 將這個文件復制到`etc`目錄中并將名字命名為`my.cnf`
sudo cp my-default.cnf /etc/my.cnf

# 然后編輯`my.cnf`文件,將下面內容復制到里面。
sudo vim /etc/my.cnf

MySQL configuration file (/etc/my.cnf):

[client]
default-character-set = utf8mb4

[mysql]
default-character-set = utf8mb4

[mysqld]
character-set-client-handshake = FALSE
character-set-server = utf8mb4
collation-server = utf8mb4_unicode_ci

重啟MySQL

重啟步驟很重要,不然沒有任何效果。

/usr/local/mysql/support-files/mysql.server start
/usr/local/mysql/support-files/mysql.server stop
/usr/local/mysql/support-files/mysql.server restart

系統中可以以這種形式重啟、停止或啟動

service mysqld stop
service mysqld start
service mysqld restart

查看是否設置成功

通過下面命令查詢是否設置成功!

# 登陸MySQL進行查詢
mysql> SHOW VARIABLES WHERE Variable_name LIKE 'character\_set\_%' OR Variable_name LIKE 'collation%';

# 運行上面代碼顯示下面結果
# +--------------------------+--------------------+
# | Variable_name            | Value              |
# +--------------------------+--------------------+
# | character_set_client     | utf8mb4            |
# | character_set_connection | utf8mb4            |
# | character_set_database   | utf8mb4            |
# | character_set_filesystem | binary             |
# | character_set_results    | utf8mb4            |
# | character_set_server     | utf8mb4            |
# | character_set_system     | utf8               |
# | collation_connection     | utf8mb4_unicode_ci |
# | collation_database       | utf8mb4_unicode_ci |
# | collation_server         | utf8mb4_unicode_ci |
# +--------------------------+--------------------+

# 查看表的情況
mysql>  SHOW FULL COLUMNS  FROM  users_profile;

到這一步表示你成功了!恭喜你!~

修復和優化表

我跑到這一步其實沒有任何必要修復和優化表,為了保險起見,我還是運行了這兩條命令,雖然不知道它有什么卵用,放在這里做個筆記吧。

REPAIR TABLE 表名字;
OPTIMIZE TABLE 表名字;

參考資料

 

來自:https://segmentfault.com/a/1190000006851140

 

 本文由用戶 Lee6144 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!