什么是序列化?序列化到底是做什么的?
第一次听到序列化这个词,还是专门指java中的Serializable这个接口。后来随着知识不断地累积,对于序列化的理解就不止局限于某一特定的语言。
序列化的定义
序列化 (Serialization)是将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间,对象将其当前状态写入到临时或持久性存储区。以后,可以通过从存储区中读取或反序列化对象的状态,重新创建该对象。
反序列化,就是把序列化后的IO再转换到内存对象。
上诉定义,说明简单来说就是把内存中的对象信息,转换成IO流,然后这个IO流可以存储到本地,也可以通过网络传输。
目前比较常用的序列化格式有:java的Serializable、XML、JSON、protobuf、Hession、kryo、Avro等等。
JAVA序列化Serializable
java中实体类实现Serializable接口才可以做序列化。这种序列化方式目前很不推荐,主要原因如下:
1:不支持跨语言。序列化后的IO流只能用java来做反序列化。
2:序列化和反序列化效率低。
3:序列化后可读性差。Serializable序列化后用的二进制来存储的,所以不能直观的分析出对象的信息。
XML
xml作为早期的序列化方式,对于Serializable有如下几个优势。
1:支持跨语言。
2:可读性好。
3:序列化效率相比Serializable会高一些。
但是看到上图,其实xml里面包含了大量的标签,这些标签其实和数据本身关系并不大,所以还有很多优化空间。
JSON
xml格式其实有大量的特殊符号(<>等)以及各种与数据本身无关的信息,所以非常不适合在网络上传输。所以有了JSON格式。
JSON(JavaScript Object Notation, JS对象简谱)是一种轻量级的数据交换格式。它基于 ECMAScript(European Computer Manufacturers Association, 欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
{
"people": [{
"firstName": "Brett",
"lastName": "McLaughlin"
},
{
"firstName": "Jason",
"lastName": "Hunter"
}
]
}
这样格式相比xml来说,节省了很多空间。目前比较主流的json序列化工具有Jackson、FastJson和Gson。
上图中可以看出FastJson和Jackson的性能差距不大,但是个人不太建议使用(因为时不时的爆出漏洞)。Gson的性能从上图看都是相比较差的,但是Gson对与复杂对象的支持度是非常好的。
思考:其实我们看JSON格式的数据,其实还是有些地方可以继续优化的,比如:
1:字段名为什么非要用完整的字段名?为什么不考虑替换成一种约定好的符号呢?
2:属性值是否可以进行压缩呢
protobuf
对于刚才我们提到对JSON的思考,在protobuf中做出了答案。
Protobuf是Google的一种数据交换格式,它独立于语言、独立于平台。Google提供了多种语言来实现,比如Java、C、Go、Python,每一种实现都包含了相应语言的编译器和库文件,Protobuf是一个纯粹的表示层协议,可以和各种传输层协议一起使用。
我们可以简单地去理解一下,刚才的JSON如下
{
"people": [{
"firstName": "Brett",
"lastName": "McLaughlin"
},
{
"firstName": "Jason",
"lastName": "Hunter"
}
]
}
{
1: [{ //这里用1代替字符串people
2: "Brett", //这里用2 代替firstName
3: "McLaughlin" //这里用3 代替lastName
},
{
2: "Jason",
3: "Hunter"
}
]
}
以上转换明显要比Json节省了很多空间。其实protobuf对value也进行了压缩,通过使用varint和Zigazg来进行压缩的,我们先看protobuf的存储格式。
protobuf采用T-L-V作为存储方式。
简单的例子:
publicstaticvoidmain(String[]args){
??UserProtos.Useruser=UserProtos.User.newBuilder().setAge(300).setName("Mic").build();
??byte[]bytes=user.toByteArray();
??for(bytebt:bytes){
????System.out.print(bt+"");
}
以上代码是将如下JSON数据转化成protobuf
{
"age":300,
"name":"Mic"
}
其结果为 10 3 77 105 99 16 -84 2 ,一共只有8个字节。
protobuf既然这么节省空间,那么为什么不大规模推广呢?现在来看一下它的缺点:
1:protobuf是一种约定的结构,需要客户端和服务端双方约定好,如果有改动,需要两边同时改动,非常不方便。
2:可读性差。基本上单看序列化后的结果,无法看出其信息的意义,不方便开发和定位。
3:目前支持语言有限。java、js、python等,并不能保证所有语言都支持。
总结
序列化的目的就是为了传输数据或保存数据的,所以想要开发一个合格的序列化工具或格式,需要有两个指标要满足。
1:序列化和反序列化的性能。
2:序列化后数据的大小。
本文暂时没有评论,来添加一个吧(●'◡'●)