logo
logo
DeepFlow 在腾讯 TKE 内部平台的可观测性实践
随着云原生技术的快速发展,越来越多的业务采用微服务架构,并将服务迁移至 Kubernetes(K8s)环境。微服务化虽然提升了单个服务的可维护性和业务开发效率,却同时增加了服务之间的依赖复杂度。一旦出现问题,往往需要耗费精力梳理业务架构来定位故障点。K8s 虽然提供了服务发现等能力,让业务方可更专注于业务逻辑,但这类功能的实现分布在各个节点或者 Pod 之中,一旦出现异常,要花费大量时间摸排问题点。为了解决这一痛点并强化业务可观测性,本文将介绍 DeepFlow 在腾讯 TKE 内部平台上的实践经验。
慢调用排查实录:高效定界服务网格 Sidecar 性能瓶颈
某车企在测试新业务时,发现某测试集群(A-Test-Cluster)的请求响应时间异常,而业务 POD 内部响应正常,初步排除业务逻辑问题后,故障被定位为网络层面性能瓶颈。本次案例揭示了复杂异构测试环境中的两大挑战:底层架构的“黑盒化”导致根因难以识别,以及架构的多样性(如服务网格和定制化代理)加剧了问题排查的复杂性。通过引入 DeepFlow 的全栈可观测性能力,利用 eBPF 技术追踪请求全生命周期,结合拓扑分析、调用日志和持续剖析,精准定位问题源头为 Sidecar 代理在处理 304 响应时的阻塞缺陷。经过研发团队修复,问题得以解决。本案例展示了 DeepFlow 在复杂环境中快速定界故障的强大能力,其中立、全面的观测数据和跨层级的追踪能力显著提升了性能问题的定位与解决效率,为异构架构下的故障排查提供了可靠支持。
深度解析 DeepFlow 如何采集大模型服务的业务指标
为高质量支撑 2024 年客服大模型商用,中国移动构建了客服大模型“混合云”生产环境,确保大模型应用安全稳定运行、智算资源高效利用。面对当前跨云调用拓扑的复杂性,以及运维保障与业务运营中服务质量观测指标的缺失问题,多团队共同合作基于 eBPF 与 Wasm 技术构建客服大模型生产运行态可观测能力。
3 分钟诊断 Tomcat TCP 超时参数配置错误引发的概率性交易失败
某银行分布式核心交易系统运行过程中,遇到了偶发性、无规律的交易失败,由于交易请求海量、通信关系复杂、App 实例动态等系统特点,传统监控工具的诊断能力受限,此类故障诊断极其困难。但在本篇案例中,您将看到 DeepFlow 可观测平台提供的 Full Stack(全栈)、End to End(全链路)、Any Request(每一次应用调用)观测能力,精细化分析每一次失败交易的端到端过程,用 3 分钟时间、5 步操作,通过可观测性数据客观诊断出故障根因。
eBPF 可观测性技术 3 分钟锁定银行信创云垃圾文件罪魁祸首
在某国有银行的信创云日常运维中,发现大量未知的垃圾文件,存在严重的系统运行隐患,其承载的分布式核心交易系统的运行稳定性随时可能受到影响,运维人员尝试寻找产生垃圾文件的源程序,但却发现传统监控工具对未知程序在未知时间、未知节点、未知路径,写入未知文件的故障诊断并不是一件容易的事情,而 DeepFlow 使用 eBPF 技术实现的可观测性可以为运维人员提供纤毫毕现的文件读写观测能力,让此类问题的诊断定位变得极其轻松。
某金融科技公司 x DeepFlow:如何实现 SRE 99.9% 服务级别目标 (SLO)
某金融科技公司是一家位于新加坡全球领先的金融交易科技提供商,目前主要面临的挑战是确保交易系统的高可用性(99.9%)和低延迟(50ms)。为此,某金融科技公司引入了 DeepFlow 可观测性平台,实现零侵扰的全栈监控,快速定位和解决问题,显著提升了运维效率。通过构建 SRE 黄金指标视图,团队能够实时监控和分析服务运行状态,确保系统的高性能和可靠性。
企迈科技 x DeepFlow:爆发式增长业务背后的可观测性平台实践
企迈科技是数字化门店 SaaS 服务的领先者,通过全渠道连接门店与顾客,提升经营效率和竞争力。近几年业务规模迅速扩大,技术架构面临性能和稳定性挑战,促使企迈引入 DeepFlow 作为可观测性平台,通过 eBPF 技术实现零侵扰的数据采集和分析。DeepFlow 帮助企迈优化性能、快速定位问题,并通过全栈调用链追踪和持续性能剖析提升服务质量。未来,企迈计划进一步融合 eBPF 数据与其他监控数据,构建全栈一体化平台,并加强与 DeepFlow 社区合作,推动可观测性技术进步。
腾讯云某业务基于 DeepFlow 的可观测性实践
本文分享了腾讯云某业务基于 DeepFlow 的可观测性实践。面对复杂的业务服务(800+)和多样的编程语言,腾讯云某业务团队选择了 DeepFlow 作为跨语言、无侵入的可观测技术。与其他技术(如 Hubble 和 Pixie)相比,DeepFlow 在数据指标、协议支持和扩展能力等方面表现优异,成为最佳选择。引入 DeepFlow 后,腾讯云通过与现有系统的集成,实现了统一的服务性能监控和高效的故障排查能力,显著提升了运维效率,甚至能主动发现业务隐藏的 Bug,防范于未然。
腾讯游戏基于 DeepFlow 的零侵扰可观测性进阶实战
腾讯不仅致力于开发广受欢迎的自研游戏,还与世界各地的知名游戏开发商合作,负责将这些游戏推向市场,让更多玩家享受游戏的乐趣。这些合作伙伴来自全球各地,使用多种多样的技术栈,这为游戏的稳定性维护提出了复杂的挑战。本文旨在探讨腾讯互娱如何利用 DeepFlow 的 eBPF 技术实现无侵入式的可观测性,这一策略不仅确保了游戏渐进式发布过程中的流畅用户体验,还加快了问题的诊断与解决,有效预防了潜在的性能问题。
开箱即用的 eBPF 可观测性:中国移动磐基 PaaS 平台案例
在上一篇文章【中国移动磐基PaaS平台基于eBPF的应用可观测性建设实践】中分享了中国移动磐基 PaaS 平台如何将 eBPF 数据与现有的可观测数据整合,提供了开箱即用的应用可观测性,全栈无盲点的调用链追踪等能力。本篇文章将主要介绍开箱即用的可观测性能力如何快速实现故障定界、高效发现性能隐患。
民生银行云原生业务的 eBPF 可观测性建设实践
民生银行通过 DeepFlow 构建了容器/云全路径网络观测能力、eBPF 零侵扰应用观测能力、应用函数监控能力、容器系统指标观测能力,并借助 WebAssembly 技术探索业务观测能力的建设。通过应用、系统、网络的全栈统一观测,民生银行的网络运维团队从网络监控时代迈向全栈主动观测时代,有效提升运维监控能力,提供更加全面、精准、有效、安全的监控服务能力,整体提升了故障定位和根因分析水平。本文讲述了**民生银行的网络运维团队的工程师们在企业全面拥抱云原生的过程中,如何与云杉 DeepFlow 团队携手以 vTap 流量分发为起点**,逐步改变传统网络运维思路,**拥抱分布式流量采集方案,引入 eBPF 零侵扰应用追踪技术**,并积极探索更多观测能力的发展历程。
DeepFlow 元数据数据库 PostgreSQL 改造实践
本文描述了 DeepFlow Server 用到的 MySQL 数据库改成 PostgreSQL 数据库的改造思路和实现细节。
DeepFlow 扩展协议解析实践
DeepFlow 对于云原生应用来说,完全具备零侵扰的形式提供应用可观测能力,这个能力得益于其基于 eBPF 以零侵扰的方式采集应用数据,并通过解析多种应用及业务协议来实现应用可观测能力,本文通过深入剖析代码流程,用实战的方法介绍 DeepFlow 中两种常见的协议扩展方法:如何从零开始增加支持一种全新的协议(MongoDB),以及如何利用 DeepFlow 的 Wasm Plugin 机制对已有协议(Kafka)的解析能力进行增强,此次分享的 MongoDB 协议及 Kafka 增加的字段都已经合 DeepFlow 6.4 版本,欢迎大家试用。
微拍堂基于 DeepFlow 建设零侵扰的可观测平台
微拍堂电商平台面临成本与性能优化瓶颈、问题定位困难以及业务流梳理困难等挑战,公司运维团队决定构建对业务零侵扰的可观测性平台。评估众多开源解决方案后,选择了基于 eBPF 的 DeepFlow 开源项目作为数据底座,在此基础上针对公司业务需求进行二次开发,实现了完整的用户界面。可观测性平台在试运行过程中得到了研发团队及 SRE 团队的充分认可,开始推进全面上线基于 DeepFlow 二开的零侵扰可观测性平台。
中国移动磐基PaaS平台基于eBPF的应用可观测性建设实践
作为中国移动智慧中台的统一技术底座,磐基 PaaS 平台提供了高效的集群管理和调度功能,满足多元化的业务场景需求。该平台携手 DeepFlow 借助 eBPF 技术,解决了 APM 落地困难和组件追踪断路中的挑战,实现了全栈且无侵扰的应用可观测性。磐基 PaaS 平台将 eBPF 数据与现有的可观测数据整合,提供了**开箱即用的应用可观测性,全栈无盲点的调用链追踪等能力**,大大提升了各业务系统云化的底气,并促进了平台本身的快速推广。未来,平台还针对运营商等特定行业场景,进一步深化可观测性数据的融合,并将创新性地拓展其 AI 能力,以增强市场竞争力。