MySQL TEXT字段长度与字符集（UTF8, UTF8MB4）的关系 – wiki大全

深入解析：MySQL TEXT 字段长度与字符集（UTF8 vs UTF8MB4）的微妙关系

在 MySQL 数据库设计中，TEXT 类型是存储大量文本数据的关键。然而，许多开发者对其“长度”的理解存在一个常见的误区，尤其是在处理 UTF8 和 UTF8MB4 这两种常用字符集时。本文将深入探讨 TEXT 类型的真实存储限制，以及不同字符集如何影响其能容纳的实际字符数量。

首先，最核心的一点是：MySQL 中 TEXT 及其家族（TINYTEXT, MEDIUMTEXT, LONGTEXT）的长度限制是基于字节（Bytes），而不是字符（Characters）数量。

这是由数据库存储引擎的物理设计决定的。无论你选择哪种字符集，这几种类型的最大字节容量是固定不变的：

这个“最大长度”指的是该字段能够占用的最大物理存储空间。

字符集（Character Set）和字符编码（Collation）决定了如何将我们看到的字符（如 ‘A’, ‘好’, ‘😂’）转换为二进制字节进行存储。

latin1 (ISO-8859-1): 这是一个非常基础的单字节编码。每个字符都只占用 1 个字节。它主要覆盖西欧语言字符。
utf8 (在 MySQL 中实为 utf8mb3): 这是一个变长编码，每个字符使用 1 到 3 个字节 来存储。它可以存储绝大部分 Unicode 字符，包括常见的中文、日文、韩文等。但它的致命缺陷是无法存储需要 4 个字节的字符，例如大部分 Emoji 表情符号和一些生僻的汉字。
utf8mb4: 这才是“完整版”的 UTF-8 编码。它同样是变长编码，每个字符使用 1 到 4 个字节 来存储。它能够覆盖所有 Unicode 平面的字符，包括各种 Emoji、特殊符号和罕见字符。这是现代应用开发的首选字符集。

理解了以上两点，我们就能揭示它们之间的关系了：TEXT 字段能存多少字符，完全取决于这些字符在特定字符集下被编码成了多少字节。

公式： 最大字符数 = TEXT类型的最大字节数 / 每个字符占用的字节数

由于 utf8 和 utf8mb4 是变长编码，所以一个字段能存储的字符数是一个范围，而不是一个固定值。

使用 latin1 字符集：
- 每个字符固定为 1 字节。
- 最大字符数：65,535 / 1 = 65,535 个字符。
使用 utf8 (utf8mb3) 字符集：
- 字符占用 1-3 字节。
- 最佳情况 (全部是 ASCII 字符): 65,535 / 1 = 65,535 个字符。
- 最差情况 (全部是占 3 字节的字符，如多数汉字): 65,535 / 3 = 21,845 个字符。
使用 utf8mb4 字符集：
- 字符占用 1-4 字节。
- 最佳情况 (全部是 ASCII 字符): 65,535 / 1 = 65,535 个字符。
- 一般情况 (内容为汉字): 65,535 / 3 = 21,845 个字符。
- 最差情况 (内容全是 Emoji 等 4 字节字符): 65,535 / 4 = 16,383 个字符。

下表清晰地展示了不同 TEXT 类型在“最差情况”下（即每个字符都占用其编码允许的最大字节数时）的最小字符容量。

数据类型	最大字节数	`utf8` 最小字符容量 (除以3)	`utf8mb4` 最小字符容量 (除以4)
`TINYTEXT`	255	85	63
`TEXT`	65,535	21,845	16,383
`MEDIUMTEXT`	16.7 M	~559 万	~419 万
`LONGTEXT`	4.2 B	~14 亿	~10.7 亿

在现代互联网应用中，用户输入 Emoji 表情是常态。如果你的 TEXT 字段（甚至 VARCHAR 字段）仍在使用 utf8 字符集，当用户提交一个包含 Emoji 的表单时，数据库会尝试存储一个 4 字节的字符。由于 utf8 (mb3) 不认识这个字符，就会抛出著名的错误：

Incorrect string value: '\xF0\x9F\x98\x82...' for column 'content' at row 1

这会导致数据存储失败，严重影响用户体验。

新项目标准配置：对于所有新的 MySQL 项目，请毫不犹豫地将数据库、表和字段的默认字符集设置为 utf8mb4，并将排序规则设置为 utf8mb4_unicode_ci。
老项目迁移：对于还在使用 utf8 的老项目，应制定计划将其迁移到 utf8mb4。可以使用以下命令进行转换：

“`sql
— 更改数据库默认字符集
ALTER DATABASE your_database_name CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;

— 更改表字符集
ALTER TABLE your_table_name CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
`` **注意：**CONVERT TO` 会同时修改列定义和转换已有数据，操作前务必备份数据。
连接配置：确保你的应用程序数据库连接字符串也指定了 utf8mb4，例如 ...&charset=utf8mb4，以保证数据在传输过程中不会乱码。

在进行数据库设计时，当你估算一个 TEXT 字段是否足够时，应采用“最坏情况”思维：用其最大字节数除以 4，得到在 utf8mb4 下它能保证容纳的最小字符数，以此判断是否满足业务需求。只有这样，才能构建出健壮、可靠且面向未来的数据存储方案。