当前位置:网站首页>protobuf 中数据编码规则
protobuf 中数据编码规则
2022-08-03 16:05:00 【litanyuan】
背景
protobuf 是一种跨平台的序列化结构数据的方法,可用于网络数据传输及存储;protobuf 在生成的 C++ 代码中为 .proto 文件中的每个 message 生成了对应的 C++ 类,并提供了数据成员的读写方法。
本文对 protobuf 中数据编码规则进行总结,以知其然也知其所以然。
基本概念
①.wire-type
wire-type 指编码类型,如下表所示
| wire-type | 名称 | 说明 |
|---|---|---|
| 0 | Varint | 变长整形 |
| 1 | 64-bits | 固定 8 个字节 |
| 2 | Length-delimited | Length+Body 方式 |
| 5 | 32-bits | 固定 4 个字节 |
②.field-number
field-number 即字段的数字标识符,表示字段的唯一性。
③.msb
msb 指每个字节的最高位,Varint 中用来标记后续是否有更多的字节需要读取。
消息结构
①.概述
protobuf 消息的二进制数据是由一系列的键值对依次排列构成:

其中:Tag 信息:存储 wire-type 和 field-number,用来标识每一个字段;Data 信息:存储字段值编码后的二进制序列。
②.Tag 生成规则
Tag 用一个字节表示,其中低 3 个字节标识 wire-type,生成规则如下:
Tag = field-number << 3 | wire-type
Varint 编码 ①.概述
Varint 编码是一种可变长的编码方式。Varint 每个字节使用低 7 位存储数值,采用小段存储。
②.内存中 int 编码
C++ 中 int 为 4 个字节,以整数 200 为例:
std::cout << std::bitset<32>(200) << endl;

③.protobuf 中 int 编码
示例 message 中定义一个 int32 成员:
message DemoMsg
{
int32 a = 1;
}
序列化后结果如下:
void printStringByBin(const std::string& s)
{
for (auto& c : s)
{
std::cout << std::bitset<8>( static_cast<short>(c)) << " ";
}
std::cout << std::endl;
}
int main()
{
protoTest::DemoMsg msg;
msg.set_a(200);
string s = msg.SerializeAsString();
printStringByBin(s);
}

整数 200 在经 protobuf 序列化后只需要 2 个字节(仅 Data 部分),Varint 编码中数值越小需要的字节数越少。比如整数 2 只需要 1 个字节:

④.Varint 编码过程示例
以整数 200 为例 Varint 编码规则如下:

Length-delimited 编码
①.概述
字符串编码的数据部分由长度和字符序列构成,其中长度采用 Varint 方式编码。string 类型以及 message 、map 等复合类型的字段都是采用 Length-delimited 方式编码,先指定数据长度,然后后面依次是内部各字段的编码。
②.string 编码示例
示例 message 中定义一个 string 成员:
message DemoMsg
{
string a = 1;
}
序列化后结果如下:
void printStringByHex(const std::string& s)
{
for (auto& c : s)
{
std::cout << std::hex <<std::setfill('0') << std::setw(2) << static_cast<short>(c) << " ";
}
std::cout << std::endl;
}
int main()
{
protoTest::DemoMsg msg;
msg.set_a("abcd");
string s = msg.SerializeAsString();
printStringByHex(s);
}

固定长度编码
①.概述
固定长度编码方式 Data 部分采用固定的长度编码,如 fixed32 采用固定 4 个字节表示数字。
②.fixed32 编码示例
示例 message 中定义一个 fixed32 成员:
message DemoMsg
{
fixed32 a = 1;
}
序列化后结果如下:
int main()
{
protoTest::DemoMsg msg;
msg.set_a(200);
string s = msg.SerializeAsString();
printStringByBin(s);
}

数据类型选择
①.概述
由于不同的编码方式所需要的字节数不一样,为提高数据编码及传输效率,要为 message 中每个字段选择合适的类型。
②.正整数
如果数值是正数,根据值的范围大小使用 uint32 \ uint64 类型,但如果数值总是比较大的话选择 fixed32 \ fixed64。
③.负整数
如果数值可能是负数,根据值的范围大小使用 int32 \ int64 类型;但如果数值总是比较大的话选择 sfixed32 \ sfixed64;
④.浮点数
float \ double 是固定使用 4 \ 8个字节编码,为提高效率可以把浮点数转为整形进行传输;
⑤.字符串
string 和 bytes 都是字符串,但 string 仅支持 UTF-8 或者 7-bit ASCII 编码的文本。

边栏推荐
猜你喜欢
![[QT] Qt project demo: data is displayed on the ui interface, double-click the mouse to display specific information in a pop-up window](/img/3f/265c9d2703056260e03c346fa65a03.png)
[QT] Qt project demo: data is displayed on the ui interface, double-click the mouse to display specific information in a pop-up window

AI+BI+可视化,Sugar BI架构深度剖析

How to get the 2 d space prior to ViT?UMA & Hong Kong institute of technology & ali SP - ViT, study for visual Transformer 2 d space prior knowledge!.

30W 2C(JD6606S + FP6652X2)BOM

【Unity入门计划】基本概念(7)-Input Manager&Input类

视频人脸识别和图片人脸识别的关系

ModelWhale 云端运行 WRF 中尺度数值气象模式,随时随地即开即用的一体化工作流

MySQL性能优化_小表驱动大表

美国国防部更“青睐”光量子系统研究路线

世界顶级级架构师编写2580页DDD领域驱动设计笔记,属实有牌面
随机推荐
使用VS Code搭建ESP-IDF环境
30W 2C(JD6606S + FP6652X2)BOM
EA 改口,称单人游戏是产品组合中“非常重要的一部分”
【Unity入门计划】基本概念(8)-瓦片地图 TileMap 01
opencv 读取和写入路径有汉字的处理方法
托尔斯泰:生活中只有两种不幸
正向代理与反向代理
Kubernetes 笔记 / 目录
一文看懂推荐系统:概要02:推荐系统的链路,从召回粗排,到精排,到重排,最终推荐展示给用户
Go Go 简单的很,标准库之 fmt 包的一键入门
如何选择合适的损失函数,请看......
高可用版 主数据库数据结构改变 备数据库会自动改变吗
#夏日挑战赛# HarmonyOS 实现一个绘画板
用户侧有什么办法可以自检hologres单表占用内存具体是元数据、计算、缓存的使用情况?
《安富莱嵌入式周报》第276期:2022.07.25--2022.07.31
MarkDown常用代码片段和工具
一个文件管理系统的软硬件配置清单
为教育插上数字化的翅膀,网易云信发布「互联网+教育」整体解决方案
unity用代码生成LightProbeGroup
"Avnet Embedded Weekly" Issue 276: 2022.07.25--2022.07.31