系统服务器应用UDP分析丢包问题的思路

terry 3年前 (2023-09-28) 阅读数 102 #未命名

在工作中，遇到了一些服务器应用的UDP丢包问题。在排查问题的过程中，查阅了很多资料，总结了这篇文章，以便更多的人参考。

在开始之前，我们先用一张图来解释一下Linux中接收网络数据包的过程。

首先，网络数据包通过物理网线发送到网卡。这个过程使用DMA（直接内存访问），不需要CPU参与
内核从环形缓冲区中读取消息进行处理，执行IP和TCP/UDP层逻辑，最后将消息注入到应用程序中。 socket buffer
应用程序从socket buffer中读取消息进行处理

在接收UDP消息的过程中，图中的任何进程都可以主动或被动地丢弃消息，因此数据包可能在网卡和控制器上丢失，或者在系统和应用程序中。

之所以不分析发送数据的过程，是因为发送的过程和接收的过程类似，只是方向相反；另外，发送过程中消息丢失的概率比接收过程中的要小。仅当应用程序发送消息的速率快于内核和网卡的处理速度时。它仅以一定的速度发生。

本文假设计算机只有一个名为 eth0 的接口。如果有多个接口或者接口名称不是eth0，请根据实际情况进行分析。

注：文中RX（接收）表示接收消息，TX（发送）表示发送消息。

确认 UDP 丢包

如果想检查网卡是否丢包，可以使用 ethtool -S eth0 检查并在输出中搜索

drop 相关字段是否有数据。正常情况下，这些字段对应的数字都应该为0。如果看到对应的数字不断增加，则说明网卡正在丢包。另外一个检查网卡包数据的命令是Ifconfig，它的输出会有Rx（Receive Accept Match）和❀Tx‼等）统计：

另外， Linux系统还提供了各个网络协议的丢包信息，可以使用命令 netstat -s plus --udp

只能显示UDP相关的报文数据：

对于以上输出，注意以下信息查看UDP丢包：

Packet receive error不为空且不断增加，说明系统有UDP丢包
收到到未知端口的数据包表示系统接收到的UDP报文的目的端口不受应用程序监控。这通常是由于服务未运行且未造成严重问题。
接收缓冲区错误表示是由于UDP接收缓冲区太小导致丢包数量。对于 UDP，如果有少量数据包丢失，这可能是丢失等预期行为。数据包速率（丢失的数据包数/接收的数据包数）为万分之一甚至更低。网卡或驱动包丢失如前所述，如果ethtool -S eth0包含 rx_***_errors，那么很可能是 rx_* *的问题*_errors网卡导致丢包，需要联系服务器或网卡厂商处理。 netstat -i 还将提供有关每个网卡接收和丢失的数据包的信息。正常情况下，输出错误或丢包应该为0。如果没有硬件或驱动问题，网卡丢包一般都太小。您可以使用命令ethtool查看和设置网卡振铃内存。 ethtool -g 可以显示某个网卡的环形缓冲区，如下面的例子默认是该网卡的最大缓冲区值，可以使用 ethtool -G eth0 rx 8192 设置其值。 Linux 丢包 Linux 丢包的原因有很多。常见的包括：UDP报文错误、防火墙、UDP缓冲区大小不足、系统负载过大等。下面我们就分析一下这些丢包的原因。 UDP报文错误如果UDP报文在传输过程中被修改，会导致校验和错误或长度错误。 Linux 在收到 UDP 消息时验证这一点。当发现错误时，该消息将被丢弃。如果希望在出现错误时及时将UDP消息校验和发送给应用程序，可以通过socket参数禁用UDP校验和检查：防火墙如果系统防火墙丢包，行为一般都是UDP无法正常接收数据包。当然，也不排除防火墙只丢弃部分数据包的可能性。如果您遇到非常高的丢包率，请先检查您的防火墙规则，以确保防火墙没有主动丢弃 UDP 数据包。 UDP缓冲区大小不足 Linux收到消息后，将消息存储在缓冲池中。由于缓冲池的大小是有限的，如果UDP数据包太大（超过缓冲池大小或MTU大小）或者数据包接收率太高，Linux可能会因为缓冲区已满而直接丢包。在系统级别，Linux 设置了可以为接收缓冲区配置的最大值，您可以在下面的文件中看到。一般来说，Linux在启动时根据内存大小设置一个初始值。 /proc/sys/net/core/rmem_max：允许的最大接收缓冲区设置 /proc/sys/net/core/rmem_default：默认接收缓冲区值 /proc/sys/ net /core /wmem_max ：可以设置的最大发送缓冲区值 /proc/sys/net/core/wmem_dafault：默认使用的最大发送缓冲区值但是不建议使用这些初始值处理大流量的UDP消息。，如果应用程序接收和发送大量UDP数据包，则需要增大该值。可以使用 sysctl 命令使其立即生效： sysctl -w net.core.rmem_max=26214400 # 设置为 25M 也可以在 /et/ 中调整对应值sysctl.conf

下次启动时该参数仍然有效。
如果消息太大，可以在发送方对数据进行拆分，以确保每条消息的大小在 MTU 之内。
另一个可配置的参数是netdev_max_backlog，它指定 Linux 内核从网卡驱动程序读取消息后可以缓存的消息数量。默认值为 1000。您可以增大该值，例如设置成 2000：
sudo sysctl -w net.core.netdev_max_backlog=2000
系统负载过高
以及 CPU、内存、IO负载过高，会导致网络丢包。例如，如果CPU负载过高，系统没有时间执行校验和计算、将数据包复制到内存等操作，导致网卡或套接字缓冲区中的数据包丢失；
如果内存负载过高，会导致应用进程过慢，无法及时处理消息；
IO 负载过高。 CPU用于响应IO等待，没有时间处理缓冲区中的UDP消息。
Linux系统本身就是一个互联的系统。任何一个部件出现问题都会影响其他部件的正常运行。
如果系统负载过高，要么是应用程序有问题，要么是系统缺陷。前者必须及时发现、调试、修复；后者必须及时发现和扩展。
应用丢包
如上所述，系统UDP缓冲区大小被修改。修改后的sysctl参数只是系统允许的最大值。每个应用程序在创建套接字时都必须设置自己的套接字缓冲区大小值。
Linux系统会将接收到的消息存储在socket缓冲区中，应用程序会不断地从缓冲区中读取消息。因此有两个与应用程序相关的因素会影响数据包是否丢失：套接字缓冲区的大小和应用程序读取数据包的速度。
在第一个问题中，您可以在应用程序初始化套接字时设置套接字的接收缓冲区大小。例如，以下代码将套接字缓冲区设置为 20 MB：
uint64_t receive_buf_size = 20*1024*1024; //20 MB setsockopt(socket_fd, SOL_SOCKET, SO_RCVBUF, &receive_buf_size, sizeof(receive_buf_size));
如果你不自己编写和维护程序，修改应用程序代码是不好的，甚至是不可能的。
许多应用程序提供配置参数来调整该值。参见相关官方文档；如果没有可用的配置参数，您只能向程序开发人员提出问题。
显然，增加应用程序的接收缓冲区会减少丢包的可能性，但也会导致应用程序使用更多的内存，所以要谨慎使用。
另一个因素是应用程序读取缓存消息的速度。对于应用程序来说，消息处理应该是异步的
丢包的地方
想要了解更多有关 Linux 执行的信息如果在任何功能中丢包，您可以使用 dropwatch 一个监控丢失信息的工具打印系统中的数据包，并打印丢包的函数地址：
通过这些信息找到对应的内核代码，就可以知道内核是在哪一步丢包的，以及丢包的大概原因。
另外，还可以使用Linux perf工具来追踪 kfree_skb（网络丢包时会调用该函数）事件发生：
网上有很多文章介绍perf命令的使用和解释你可以去看他。
总结
UDP本身就是一个不可靠、不可靠的协议。适用于偶尔丢失消息不会影响程序状态的场景，例如视频、音频、游戏、监控等。需要高数据包可靠性的应用程序不应使用 UDP。建议直接使用TCP。当然也可以在应用层进行重试和去重来保证可靠性，检查丢包问题是否消失
如果系统负载过高，UDP丢包没有有效的解决方案。如果应用程序异常导致CPU、内存、IO过高，找到异常应用程序并及时修复；如果资源不足，监控应该能够及时发现并迅速升级
对于接收或发送大量UDP数据包的系统，可以调整系统和编程socket缓冲区大小，以减少丢包的概率
应用程序处理UDP消息时，应该使用异步方法，两次接收消息之间不要有太多的处理逻辑

版权声明

本文仅代表作者观点，不代表Code前端网立场。
本文系作者Code前端网发表，如需转载，请注明页面地址。

上一篇：使用 Docker 镜像和 GitLab 的 CI/CD 工具构建管道，并将其部署到 VPS/KVM Linux 服务器下一篇：Linux服务器网卡识别错误如何处理

系统服务器应用UDP分析丢包问题的思路

确认 UDP 丢包

网卡或驱动包丢失

`Linux 丢包`

`UDP报文错误`

`防火墙`

`UDP缓冲区大小不足`

系统负载过高

应用丢包

丢包的地方

`总结`

版权声明

作者文章