我第一次知道:
在 UTF - 8 编码中,英文字符和空格占 1 个字节,中文字符通常占 3 个字节。
在 GBK 编码中,英文字符和空格占 1 个字节,中文字符占 2 个字节。
上代码,看图:
public static int strGetCnLength(String str) {
if (str == null) {
return 0;
}
int result = 0;
for (int i = 0; i < str.length(); ++i) {
char c = str.charAt(i);
// 判断字符是否为中文字符(Unicode 范围)
if (charIsChinese(c)) {
result += 2;
} else {
result += 1;
}
}
return result;
}
private static boolean charIsChinese(char c) {
// 中文字符的 Unicode 范围
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
return ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B;
}
public static int strCodePointLength(String text) {
if (text == null || text.isEmpty()) {
return 0;
}
return text.codePointCount(0, text.length());
}
public static int strGetBytesLength(String text,String charsetName ) {
if (text == null || text.isEmpty()) {
return 0;
}
try {
byte[] utf8Bytes = text.getBytes(charsetName);
return utf8Bytes.length;
}
catch(Exception err){
err.printStackTrace();
return -1;
}
}
public static void main(String[] args) {
String testStr = "Hello 世界";
int len = strGetCnLength(testStr);
System.out.println("字符串长度(中文算 2 个): " + len);
len = strCodePointLength(testStr);
System.out.println("strCodePointLength: " + len);
len = strGetBytesLength(testStr,"UTF-8");
System.out.println("strGetBytesLength(UTF-8): " + len);
len = strGetBytesLength(testStr,"GBK");
System.out.println("strGetBytesLength(GBK): " + len);
}
输出:
字符串长度(中文算 2 个): 10
strCodePointLength: 8
strGetBytesLength(UTF-8): 12
strGetBytesLength(GBK): 10
豆包给的解释:
以下是对这段 Java 代码输出结果的详细分析与实际运行后的输出:
代码功能概述
这段 Java 代码定义了四个静态方法用于计算字符串的不同长度:
- strGetCnLength:将中文字符计为 2 个字符长度,其他字符计为 1 个字符长度,计算字符串的总长度。
- strCodePointLength:使用 codePointCount 方法计算字符串中实际的字符数量(考虑 Unicode 代理对)。
- strGetBytesLength:将字符串按照指定的字符编码转换为字节数组,并返回字节数组的长度。
- main 方法:用于测试上述三个方法,使用字符串 "Hello 世界" 作为测试用例,并分别调用三个方法计算不同类型的长度,然后将结果打印输出。
输出结果分析
- strGetCnLength 方法:字符串 "Hello 世界" 中,英文字符和空格共 6 个,每个计为 1 个长度;中文字符有 2 个,每个计为 2 个长度。所以总长度为 6 * 1 + 2 * 2 = 10。
- strCodePointLength 方法:该方法计算字符串中实际的字符数量,字符串 "Hello 世界" 共有 8 个字符(包括英文字符、空格和中文字符)。因此结果为 8。
- strGetBytesLength 方法(UTF - 8 编码):在 UTF - 8 编码中,英文字符和空格占 1 个字节,中文字符通常占 3 个字节。字符串 "Hello 世界" 中,6 个英文字符和空格共占 6 个字节,2 个中文字符共占 2 * 3 = 6 个字节。所以总字节长度为 6 + 6 = 12。
- strGetBytesLength 方法(GBK 编码):在 GBK 编码中,英文字符和空格占 1 个字节,中文字符占 2 个字节。字符串 "Hello 世界" 中,6 个英文字符和空格共占 6 个字节,2 个中文字符共占 2 * 2 = 4 个字节。所以总字节长度为 6 + 4 = 10。
问:
java代码中,用utf-8存储,数据库中一个中文字占用几个字节?
本文暂时没有评论,来添加一个吧(●'◡'●)