MySQL 亂碼問題詳解

jopen 9年前發布 | 10K 次閱讀 MySQL 數據庫服務器

 

先著重介紹一下mysql的字符集,這樣能對產生mysql的根源有一個了解。mysql 的字符集支持有兩個方面:字符集(Character set)和排序方式(Collation)。另外對于字符集的支持細化到四個層次: 服務器(server),數據庫(database),數據表(table)和連接(connection)。

連上mysql 后使用status 命令,可以看到類似如下輸出:

>mysql status
Connection id:          305
Current database:
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ''
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    utf8
Client characterset:    utf8
Conn.  characterset:    utf8

Server characterset 就是mysql默認字符集,當創建數據庫沒有指定字符集時數據庫就采用此默認值。可以在mysql的配置文件中的 mysqld 段中對此值進行修改
[mysqld]
port        = 3306
socket      = /tmp/mysql.sock
character-set-server = utf8
collation-server = utf8_general_ci 

Db characterset:是當前數據庫默認的字符集,當創建表時沒有指定字符集,此表就使用當前默認值。例如創建一個 db_test 數據庫,字符集使用 latin1
CREATE DATABASE `db_test` CHARACTER SET 'latin1' COLLATE 'latin1_swedish_ci';

use db_test;

然后再使用 status 命令,可以看到這個時候 Db characterset 變為 latin1 了

>mysql status
Connection id:          305
Current database:       db_test
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ''
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    latin1
Client characterset:    utf8
Conn.  characterset:    utf8

在數據庫中分別創建兩種表 test1 和 test2,其中 test1 使用默認字符集, test2 指定字符集為GBK
create table test1 (name varchar(20));

create table test2 (name varchar(20)) default charset=GBK;

使用 show create table 命令查看上述兩張表,可以看到 test1 使用了當前數據庫的默認字符集latin1,而test2使用的字符集是GBK。
mysql> show create table test1;
+-------+-------------------------------------------------------------------------------------------------+
| Table | Create Table                                                                                    |
+-------+-------------------------------------------------------------------------------------------------+
| test1 | CREATE TABLE `test1` (
  `name` varchar(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
+-------+-------------------------------------------------------------------------------------------------+

mysql> show create table test2;
+-------+----------------------------------------------------------------------------------------------+
| Table | Create Table                                                                                 |
+-------+----------------------------------------------------------------------------------------------+
| test2 | CREATE TABLE `test2` (
  `name` varchar(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=gbk |
+-------+----------------------------------------------------------------------------------------------+

mysql 存儲信息最終是已二進制的形式來存儲的。所以在存儲之前就需要對信息進行編碼,同時從數據庫讀取信息后需要解碼。具體使用那種編碼、解碼方式就是根據 Client characterset以及表對應的字符集,如果沒有顯示的指定,那么會有一個默認值。當使用命令行的方式連接mysql,可以在mysql 配置中 mysql 段來指定默認Client characterset。例如:
[client]
port        = 3306
socket      = /tmp/mysql.sock
default-character-set   = utf8

也可以使用在連接時候指定

mysql -uroot -p --default-character-set=utf8

另外在登錄mysql 后也可以使用 set names 來指定

set names utf8 

關于優先級,set names utf8 最高,mysql -uroot -p --default-character-set=utf8 其次、my.cnf 最后。

上面對字符集做了一個簡單的介紹,建議大家也把上面的mysql 命令試一下,這樣理解或更加深刻。現在再來說一下亂碼的情況,一般出現亂碼就是因為字符集(編碼)不同,換句話說就是當字符集(編碼)一致時就不會出現亂碼。前面介紹了一下字符集,所以知道了好幾種,那到底是需要什么字符集一致呢?答案是:Client characterset 與 數據庫表的字符集。 下面還是通過例子來說明,使用上面創建的表 test1。

由于test1使用的字符集是 latin1,那么使用下面的方式連上mysql

mysql -uroot -p  db_test --default-character-set=latin1

再次確認一下Client characterset 與 數據庫表的字符集

mysql> status
--------------
mysql  Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using  EditLine wrapper

Connection id:          310
Current database:       db_test
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ''
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    latin1
Client characterset:    latin1
Conn.  characterset:    latin1

-------------------------

mysql> show create table test1;
+-------+-------------------------------------------------------------------------------------------------+
| Table | Create Table                                                                                    |
+-------+-------------------------------------------------------------------------------------------------+
| test1 | CREATE TABLE `test1` (
  `name` varchar(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1 |
+-------+-------------------------------------------------------------------------------------------------+

可以看到Client characterset與表的字符集是一致的,然后插入一條含有中文的記錄,同時查詢看看。
mysql> insert into test1(name) values('中test文1234測試');

mysql> select * from test1;
+----------------------+
| name                 |
+----------------------+
| 中test文1234測試 |
+----------------------+

現在證明當Client characterset與表的字符集一致時,沒有出現亂碼。那現在使用set names 來修改一下 Client characterset 看看效果。
mysql> set names utf8;
Query OK, 0 rows affected (0.00 sec)

mysql> status
--------------
mysql  Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using  EditLine wrapper

Connection id:          310
Current database:       db_test
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ''
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    latin1
Client characterset:    utf8
Conn.  characterset:    utf8

mysql> select * from test1;
+--------------------------------------+
| name                                 |
+--------------------------------------+
| ??­test?–?1234?μ?èˉ? |
+--------------------------------------+

utf8 出現亂碼,再試試gbk
mysql> set names gbk;
Query OK, 0 rows affected (0.00 sec)

mysql> status
--------------
mysql  Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using  EditLine wrapper

Connection id:          310
Current database:       db_test
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ''
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    latin1
Client characterset:    gbk
Conn.  characterset:    gbk

mysql> select * from test1;
+------------------------+
| name                   |
+------------------------+
| ???test?1234???? |
+------------------------+

上面把Client characterset 設置分別設置為 utf8 或 GBK 后,然后查詢都出現了亂碼,而且亂碼顯示還不一樣。下面再測試一樣不同Client characterset字符集先插入在讀取的情況。
mysql -uroot -p  db_test --default-character-set=utf8

 mysql> status
--------------
mysql  Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using  EditLine wrapper

Connection id:          312
Current database:       db_test
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ''
Using delimiter:        ;
Server version:         5.6.23 MySQL Community Server (GPL)
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    latin1
Client characterset:    utf8
Conn.  characterset:    utf8

mysql> truncate table test1;
Query OK, 0 rows affected (0.01 sec)

mysql> select * from test1;
Empty set (0.00 sec)

mysql> insert into test1(name) values('中test文1234測試');                                                                                                                                             
Query OK, 1 row affected, 1 warning (0.00 sec)

mysql> select * from test1;
+--------------+
| name         |
+--------------+
| ?test?1234?? |
+--------------+

上面的例子說明當字符集不一致出現亂碼了。 如果再把Client characterset 修改為和數據庫表一致,然后看看剛剛插入的記錄是否還是顯示亂碼
mysql> set names latin1;
Query OK, 0 rows affected (0.00 sec)

mysql> select * from test1;
+--------------+
| name         |
+--------------+
| ?test?1234?? |
+--------------+
1 row in set (0.00 sec)

還是亂碼,也就是通過字符集設置也無法把亂碼還原了。

通過上面這些例子可以得出結論,只有 當Client characterset與表的字符集一致才不會出現亂碼

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!