TCP:内存不足,考虑优化TCP

admin 2020-03-20 15:16 行业动态

最近我们经历了一个有趣的生产问题。 这个应用程序是运行在多个AWS EC2实例背后弹性负载平衡器。 GNU / Linux操作系统上运行的应用程序时,Java 8, Tomcat 8应用程序服务器。 突然,一个应用程序的实例变得反应迟钝。 所有其他应用程序实例处理流量正常。 当HTTP请求从浏览器发送到此应用程序实例,我们得到以下回应被打印在浏览器上。

我们使用我们的APM(应用程序性能监控)工具来检查这个问题。 APM的工具我们可以观察CPU内存利用率,是完美的。 另一方面,APM的交通工具,我们可以观察到没有进入这个特定的应用程序实例。 这真是令人费解。 为什么交通不进来?

我们登录这个问题AWS EC2实例。 我们执行vmstat、iostat netstat, df命令是否我们可以发现任何异常。 令我们吃惊的是,所有这些伟大的工具没有报告任何问题。

作为下一步,我们重新启动Tomcat应用程序服务器中运行这个应用程序。 它没有产生任何影响。 不过,这个应用程序实例没有回应。

然后我们发出“dmesg命令”命令EC2实例。 这个命令打印消息缓冲的内核。 该命令的输出通常包含消息产生的设备驱动程序。 这个命令生成的输出,我们注意到有趣的消息重复印刷如下:

我们感到好奇看到这个错误消息:“TCP:内存不足,考虑优化tcp_mem”。 这意味着内存不足错误是发生在TCP的水平。 我们一直教导的内存错误只发生在应用程序级别,从不在TCP级别。

问题是有趣的因为我们呼吸这OutOfMemoryError问题的一天。 我们已经建立了故障排除工具GCeasy,HeapHero为了方便工程师调试OutOfMemoryError发生在应用程序级别(Java, Android, Scala, Jython的应用程序)。 我们写了一些博客OutOfMemoryError的话题。 但我们难住了OutOfMemory发生在设备驱动程序级别。 我们从未想过会有一个问题在设备驱动程序层面,也在稳定的Linux操作系统。 被这个问题难住了,我们不确定如何进一步推进。

因此,我们采取了谷歌上帝的帮助。 google的搜索词:“TCP:内存不足,考虑优化tcp_mem”,搜索结果显示只有12个。 的一篇文章,他们没有多少内容。 甚至一篇文章写的是一个外国语言,我们不能理解。 因此,我们还不能确定如何解决这个问题。

现在剩下没有其他解决方案,我们继续和实现一个通用的解决方案即“重启”。 我们重新启动延迟的EC2实例直接燃烧的火。 华友世纪 立即重新启动服务器清理问题。 显然,这个服务器没有重启好几天(如超过70 +天),可能是由于应用程序可能有饱和TCP内存限制。

我们联系了我们的一个聪明的朋友在一家世界级的科技公司帮忙工作。 这位朋友问我们,我们设置的值低于内核属性:

core.netdev_max_backlog。core.rmem_max。core.wmem_max。ipv4.tcp_max_syn_backlog。ipv4.tcp_rmem。ipv4.tcp_wmem。老实说,这是第一次,我们听到这些属性。 我们发现下面是服务器设置这些属性的值:

他提到了设置这些值将会消除我们曾面临的问题。 与你分享的价值观(它可能帮助你)。 显然,我们的价值观非常低的值相比,他已经提供了。

即使是现代行业标准APM(应用程序性能监控)工具没有完全回答我们今天面临的应用程序的性能问题。'Dmesg命令是你的朋友”命令。 您可能想要执行这个命令时,您的应用程序变得反应迟钝,也许你有价值的信息。记忆问题没有发生在我们写的代码,甚至可以发生在TCP /内核级别。

上一篇:格力、美的百亿级再融资大比拼拉开帷幕,分析
下一篇:优化保险资产配置 推进多元化布局

猜你喜欢

手机扫一扫添加微信

0592-5969527