当前位置：网站首页>解锁 tRPC 高性能密码：网络方案简介！

解锁 tRPC 高性能密码：网络方案简介！

2022-06-10 06:19:00 【腾讯云开发者社区】

导语 | 本文介绍了部分高性能网络方案，包括 RDMA、HARP、io_uring 等。从技术原理、落地可行性等方面，简要地做出分析，希望能对此方面感兴趣的开发者提供一些经验和帮助。

业务中经常会有这样的场景：

随着网卡速率的提升（10G/25G/100G），以及部分业务对低延迟的极致追求（1ms/50us），目前的内核协议栈由于协议复杂、流程复杂、设计陈旧等因素，已经逐渐成为业务瓶颈。

业界已经有部分 RDMA、DPDK 的实践，但是对于大多数开发者而言，依然比较陌生。

那么这些方案各自的场景究竟怎样？是否能够为更多的业务赋能？以下是阶段性简要总结。

相对于传统的网络协议栈，RDMA 提供的关键特性即为：Kernel Bypass，也即利用专用的 NIC（网卡）进行硬件层面的协议传输、编解码（Offload），通过内存映射技术直接与用户态程序交互，从而避免了复杂低效的内核中介。

基于这种设计，随之提供几个额外的重要特性：

由于 RDMA 定位为高性能网络传输，同时也为了简化硬件的设计，一般来说，RDMA 会避免如软件 TCP 那样复杂的可靠性设计，而是极其依赖底层传输网络的可靠性。

根据不同的传输网络，RDMA 的具体实现分为几类：

另外补充说明：

在以太网环境，主要可选项为 RoCE v2 和 iWARP，相关对比如下：

目前来看，目前的机房网络建设中，对 RoCE v2 的支持更好，而 iWARP 却仍然处于相对空白的状态。

为此，当前的调研主要针对 RoCE v2，而 iWARP 仍然有待探索。

后台业务主流协议仍然是 TCP，具有运行稳定、调试工具丰富等优势。不过对于少数期望高性能的业务，RDMA 也是值得考虑的。

业务使用 RDMA 主要面临两方面的困难：

而有些存储业务依赖多副本，网络传输需要能够跨越 MAN，甚至跨城市传输。这直接导致 RoCE v2 难以落地。

io_uring 是 Linux 5.1 + 中支持的异步 IO 框架，其核心优势有：

真正的异步化设计（Proactor），而非如 epoll 等本质上的同步行为（Reactor）。而其关键在于，程序和 kernel 通过 SQ/CQ 两个队列进行解耦。
统一的异步 IO 框架，不仅支持存储、网络。由于良好的扩展性，甚至可以支持任何的系统调用，如 openat、stat 等。

如前述，一个 io_uring 的实例，会建立一对内核和用户程序共享的队列，也即提交队列 SQ 和完成队列 CQ，两者皆为 SPSC 范型：

这其实是最常规也是最经典的异步模型，在众多异步设计中可见。

一般情况下，CQE 和 SQE 一一对应，不过 io_uring 支持 multi-shot 模式后则不一定如此。

另外，io_uring 支持批量生产和消费，也即连续生产多个 SQ 后，一次性通知内核，或者持续消费 CQ 直到其空。

为了进一步优化部分场景的性能，io_uring 支持众多的高级特性：

File Registration：在反复操作同一个 fd 时，加速其查找映射。
Buffer Registration：在 read/write 等反复需要在内核和用户程序交换数据的场景，可以重复利用预注册的一批内存。
Automatic Buffer Selection：为 Proactor read 预注册一批内存，在就绪后内核自动选择其中一块存放数据，从而减少内存分配释放，也节约内存资源。
SQ Polling：使内核（io_wq）轮询 SQ 指定时间才睡眠，从而减少通知的系统调用。
IO Polling：开启子系统（存储、网络等）的轮询模式（需要设备驱动支持），从而加速部分高速设备。另外可以配合 io_uring_enter（flag：IORING_ENTER_GETEVENTS）进行忙等。
Multi-Shot：一次提交，多次完成，如只要一次提交 socket accept，后续连接到来后多次返回。

io_uring 在存储 IO 场景，相对之前的阻塞 IO、glibc aio、linux aio 等，都有不错的性能提升。

那么在网络 IO 场景呢？是否优于 epoll 等方案呢？