Base64
它是什么?
Wiki 上的一句话解释得很恰当:
Base64 是一种基于 64 个可打印字符来表示二进制数据的表示方法
这 64 个可打印字符中包括了字母 A-Z
、a-z
、数字 0-9
,这里就有 62 个字符了,还剩下两个可打印字符在不同的版本中有不同的变化。
一般我们单独提到术语 Base64
指代特定算法时,通常指的是 RFC 4648 第 4 节中概述的 Base64
版本。
也就是下表这些字符:
编码方式
由于 log_264 = 6,所以每 6 个 bit
为一组,对应上表中的某一个可打印字符。我们知道 1 个字节有 8 位,即 1 byte = 8 bit
。因此我们可以找到 6 和 8 的最小公倍数 24,即每 3 个字节相当于 4 组 Base64
字符。
示例:
可以看到 Man
转成 Base64
编码就成了 TWFu
上面这个是刚好 3 个字节能够对应转换的,那么问题来了,如果我没有刚好 3 个字节呢,也就是说我给的输入没有 24 或其倍数的位数该怎么处理?
在上面的 索引表 中可以看到除了那 64 个可打印字符外,还有一个填充字符 =
,它就是来解决这个问题的。
- 二进制位不足 6 个的情况在末尾补 0 至满足。
- 不足 4 组的,直接在结尾添填充符。
变种
base64 编码对应的 64 个可打印字符在一些特定的程序或协议中可能不适合使用,特别是字符表第 62 位 +
、63 位 /
和填充字符 =
,因此存在一些如下的变种:
上图源自 Wiki
Base64 优缺点
-
优点
- 简化数据传输:通过将二进制数据转换为文本字符,
Base64
编码使得数据在文本协议(如 HTTP、SMTP 等)中的传输更加安全和可靠。 - 兼容性好:编码后的数据可以在几乎所有文本处理系统中处理和存储,而不会出现乱码问题。
- 易于实现:
Base64
编码和解码算法简单,容易在各种编程语言中实现。 - 减少数据损坏:避免了在传输过程中由于字符编码问题导致的数据损坏。
- 简化数据传输:通过将二进制数据转换为文本字符,
-
缺点
- 增加数据量:编码后的数据体积约为原始数据的 1.33 倍(即每 3 个字节的数据编码成 4 个字节的文本),这会增加传输和存储成本。
- 不适合大文件:由于编码后数据量的增加,不适合处理和传输非常大的文件。
- 无数据压缩:
Base64
编码不会对数据进行压缩,仅仅是转换,因此不会减少数据的实际存储空间。 - 安全性有限:
Base64
编码并不是加密方法,仅仅是编码方式,对敏感数据的保护作用有限,需要配合加密技术使用。
Base64 应用
- 数据传输:在
HTTP
协议中,表单数据通常以键值对的形式存在,这些数据在传输过程中可能会被截断或篡改。为了确保数据的完整性和安全性,可以使用Base64
编码对表单数据进行编码后再传输。 - 邮件传输:
SMTP
协议不支持直接传输二进制文件,因此需要将二进制文件(如附件)转换为ASCII
格式。Base64
编码可以用于将二进制文件转换为适合在邮件中传输的格式。 - 数据加密:虽然
Base64
编码本身并不提供加密功能,但它可以与其他加密技术结合使用,如AES
或RSA
加密。首先对数据进行加密,然后使用Base64
编码将加密后的数据进行编码,以便在不支持二进制数据的协议中传输。 - 数据存储:在某些数据库或文件系统中,可能需要将二进制数据存储为文本格式。使用
Base64
编码可以将二进制数据转换为文本字符串,以便在数据库或文件系统中存储。 URL
编码:URL
中的参数通常需要进行编码,以避免特殊字符(如空格、&
等)导致的问题。虽然URL
编码和Base64
编码是不同的概念,但有时可以将Base64
编码的数据作为URL
参数的一部分进行传输。- 证书和
API
密钥:在处理敏感信息(如SSL
证书、API
密钥等)时,可以使用Base64
编码对这些信息进行编码,以保护数据的隐私和安全。但请注意,Base64
编码并不能替代加密措施,它只是一种编码方式。
总之,Base64
编码在许多场景中都有应用,主要用于将二进制数据转换为适合在文本协议中传输的格式。然而,需要注意的是,Base64
编码并不能提供加密功能,因此在处理敏感数据时,还需要结合其他加密措施来确保数据的安全。
评论区