logo
logo
DeepFlow Wasm Plugin 性能调优实战
在之前的文章「使用 DeepFlow Wasm 插件实现业务可观测性」中,我们介绍了 DeepFlow 中的二次开发利器 —— Wasm Plugin。利用插件,我们可以实现很多个性化的应用协议解析目标,本文介绍 Wasm Plugin 的常见性能调优手段,帮助你编写高性能的协议解析插件。
一图了解如何优化 DeepFlow 存储开销
本文介绍如何对 DeepFlow 进行配置以降低 ClickHouse 的存储开销。
DeepFlow 扩展协议解析实践
DeepFlow 对于云原生应用来说,完全具备零侵扰的形式提供应用可观测能力,这个能力得益于其基于 eBPF 以零侵扰的方式采集应用数据,并通过解析多种应用及业务协议来实现应用可观测能力,本文通过深入剖析代码流程,用实战的方法介绍 DeepFlow 中两种常见的协议扩展方法:如何从零开始增加支持一种全新的协议(MongoDB),以及如何利用 DeepFlow 的 Wasm Plugin 机制对已有协议(Kafka)的解析能力进行增强,此次分享的 MongoDB 协议及 Kafka 增加的字段都已经合 DeepFlow 6.4 版本,欢迎大家试用。
微拍堂基于 DeepFlow 建设零侵扰的可观测平台
微拍堂电商平台面临成本与性能优化瓶颈、问题定位困难以及业务流梳理困难等挑战,公司运维团队决定构建对业务零侵扰的可观测性平台。评估众多开源解决方案后,选择了基于 eBPF 的 DeepFlow 开源项目作为数据底座,在此基础上针对公司业务需求进行二次开发,实现了完整的用户界面。可观测性平台在试运行过程中得到了研发团队及 SRE 团队的充分认可,开始推进全面上线基于 DeepFlow 二开的零侵扰可观测性平台。
中国移动磐基PaaS平台基于eBPF的应用可观测性建设实践
作为中国移动智慧中台的统一技术底座,磐基 PaaS 平台提供了高效的集群管理和调度功能,满足多元化的业务场景需求。该平台携手 DeepFlow 借助 eBPF 技术,解决了 APM 落地困难和组件追踪断路中的挑战,实现了全栈且无侵扰的应用可观测性。磐基 PaaS 平台将 eBPF 数据与现有的可观测数据整合,提供了**开箱即用的应用可观测性,全栈无盲点的调用链追踪等能力**,大大提升了各业务系统云化的底气,并促进了平台本身的快速推广。未来,平台还针对运营商等特定行业场景,进一步深化可观测性数据的融合,并将创新性地拓展其 AI 能力,以增强市场竞争力。
可观测性实战:快速定位 Redis 应用高时延问题
应用连接 Redis 的最佳实践是使用连接池,然而连接池通常会引入很多繁杂的配置。不合理的配置往往会造成性能隐患,并进而导致生产故障。当应用缺乏可观测性时,无法在故障发生前发现隐患,也难以在故障发生时快速定位。本文从一个普通的应用高时延入手,讲述如何使用 DeepFlow 快速定位问题根因。
eBPF 是实现可观测性的关键技术
APM Agent 由于其侵扰性,难以在金融、电信、电力等行业的核心业务系统中落地,难以在云原生基础设施中插桩。eBPF 的零侵扰优势很好的解决了这些痛点,是云原生时代实现可观测性的关键技术。DeepFlow 基于 eBPF 的全景图、分布式追踪、持续性能剖析能力已服务于各行各业,帮助金融行业的分布式核心交易系统、电信行业的 5G 核心网、能源行业的分布式电力交易系统、智能网联汽车、云原生游戏服务等快速实现了零侵扰的可观测性,保障了新一代业务和基础设施的持续创新。
使用 DeepFlow Wasm 插件实现业务可观测性
DeepFlow 利用 eBPF 采集并解析应用协议,实现了零侵扰的分布式追踪和指标数据的采集。DeepFlow 已经内置支持了十多种应用协议的解析,并且还在持续增加中。但我们发现实际业务环境中情况会更加复杂,针对这些复杂场景,DeepFlow 实现了一套零侵扰的 WebAssembly 插件机制,使得开发人员可针对自己的业务环境定制化 DeepFlow 的协议解析能力。
可观测性实战:快速定位 K8s CNI 端口冲突问题
某车企的车控业务访问账户系统时无规律偶发连接超时(connection timeout),本案例分享利用 DeepFlow 深度剖析如何分钟级定位 K8s CNI 的 SNAT (Source Network Address Translation) 触发 Node 节点源端口冲突,导致连接服务端异常。
可观测性实战:快速定位云服务时延瓶颈
本次案例为某智能汽车公司,业务监控告警发现某充电核心服务 SQL 查询时间偶现超过 200ms,对前方用户影响明显。此问题涉及多团队,仅问题定位就持续了将近 1 个星期未有结论,通过 DeepFlow 的调用日志及分布式调用链追踪的能力,快速定位瓶颈点为云网络抖动导致的,进而直接向云厂商提交工单并附带令人信服的证据。
可观测性实战:快速定位 K8s 应用的时延瓶颈
本次案例为某物流公司在今年 4 月份左右,SRE 通过监控 Nginx 日志,发现一个域名在每天晚上 12 点后存在大量持续 1s 的超时情况,这个问题困扰了用户近一个月。通过查看 DeepFlow 的调用日志,立即排除了业务响应慢的可能性,最终发现问题是 Nginx 自身配置问题导致的。这个案例展示了如何快速的定位 7 层网关时延瓶颈点。
Prometheus x DeepFlow:打造零插桩的指标体系
DeepFlow 增加了 PromQL 支持,可无缝体验 Prometheus 提供的可观测能力,同时,通过 PromQL 结合 DeepFlow 提供的可观测性数据,我们可以打造更有想象力的 Dashboard。
58