v7.0 EE Release Notes

创建时间:2025-04-02 最近修改时间:2025-05-18

#1. 业务和应用

#1.1 业务观测

  • 易用性提升
    • 右滑页面增加指标分析能力,快速分类对照查看应用和网络性能指标。

#1.2 应用观测

  • AutoTracing
    • ⭐ 支持 RocketMQ 协议的采集和追踪,文档
    • ⭐ 支持 Tars 协议的采集和追踪,文档
    • 支持 Ping 协议的采集和追踪,文档
    • 支持 Dubbo 协议使用 Fastjson 序列化时的采集和追踪,文档
    • 支持解析压缩 MySQL 调用,文档
    • 支持解析 MySQL 的 Login Response 语句,支持解析被截断的 MySQL 协议内容。
    • 支持解析 TCP Payload 中的多个 DNS 请求,支持解析 SRV 类型的 DNS 调用日志,文档 (opens new window)
    • 支持采集 Unix Socket 的调用日志,支持 TCP/UDP Socket 调用日志与 Unix Socket 调用日志之间的自动追踪。
    • 丰富文件读写事件采集的 eBPF Hook 点,提升适配性。
    • 支持解析博睿、云智慧 APM 的 TraceID 和 SpanID。
  • AutoMetrics
    • 应用性能指标(applicationapplication_map)中增加超时比例指标(timeout_ratio)。
  • AutoTagging
    • ⭐ 优化调用日志、文件读写事件数据中 process_kname 字段的含义,从内核线程名优化为系统进程名,提升易读性。
    • ⭐ 优化调用日志的响应状态(response_status)字段含义。
      • 正常:响应码正常。
      • 客户端异常:响应码表示的含义为客户端侧的异常,例如 HTTP 4XX。
      • 服务端异常:响应码表示的含义为服务端侧的异常,例如 HTTP 5XX。
      • 超时:在一定时间内未采集到响应时,请求会标记为超时。
        • 采集器应用会话合并超时设置配置:DNS 和 TLS 默认 15s,其他协议默认 120s,文档
      • 未知:并发请求量超出采集器缓存能力时,最老的请求会标记为未知。
        • 采集器会话聚合最大条目数配置:默认缓存 64K 条请求,文档
      • 解析失败:采集到了响应,但由于内容被截断或被压缩等原因,未能解析到响应码。
        • 采集器Payload 截取配置:默认解析 Payload 前 1024 字节,文档

#1.3 代码观测

  • 易用性提升
    • 默认采集 Java/Python 的 OnCPU 剖析数据。
    • 默认采集 deepflow-* 的 OnCPU 剖析数据。

#2. 基础设施

#2.1 资产观测

  • ⭐ 新增资产观测功能,支持以云主机和容器资源的视角查看观测数据。

#2.2 网络观测

  • 网络流日志中的非 TCP 流量,将其结束状态(close_type)从超时调整为正常结束(1)。
  • 页面上所有流量速率的默认单位从字节每秒(Bps)修改为比特每秒(bps)。

#2.3 流量分发

  • 分发策略支持指定采集器组。

#3. 自定义

#3.1 视图

  • 使用 PromQL 查询时,支持设置指标的别名、单位、阈值

#4. 其他

#4.1 资源列表

  • AutoTagging
    • 进程资源
      • ⭐ 自动将 gprocess 名称记录为 jar/py 文件名,避免均展示为 java/python。
      • 将同一个云主机、或同一个 K8s 工作负载中 cmdline 相同的进程聚合为唯一的 gprocess,减少冗余的进程信息。
      • 优化进程匹配器的默认值,文档
        • 默认忽略 sleep/sh/bash/pause/runc 进程信息的采集。
        • 默认采集 Java/Python 的进程信息。
        • 默认采集 deepflow-* 的进程信息。
        • 默认采集容器中的进程信息。
  • 易用性提升
    • ⭐ 性能:列表页增加 KV 搜索能力,提升百万量级大规模资源场景下的搜索体验。
    • VPC 资源列表增加 ID 列,与云平台对齐。
    • 录入对等连接时 VPC 可填写为空,表示对指定云平台下的所有 VPC 建立对等连接。

#4.2 系统管理

  • Server
    • ⭐ 支持定义 attribute.X、metrics.X 等字段的索引,加快常用字段的检索速度。
    • 支持终止采集器远程升级,优化升级时 Server 的 CPU 资源开销。
    • 支持设置最长查询时长,避免大时间尺度的查询消耗过多资源。
  • Agent
    • ⭐ OneAgent:支持使用 deepflow-agent 采集应用日志、主机系统指标、K8s 容器系统指标。
    • ⭐ OneAgent:支持使用 deepflow-agent 进行持续拨测。
    • ⭐ 安全性:支持限制 deepflow-agent 使用的 Socket 数量,文档
    • ⭐ 适配性:支持采集 Pod 内部网卡的流量,适用于 Root 网络命名空间下无法直接采集 Pod 网卡流量的场景(例如华为云 CCE Turbo CNI (opens new window)),文档
    • ⭐ 性能:PCAP 数据支持压缩传输,压缩率可达 5:1 ~ 10:1,文档
    • ⭐ 性能:支持压缩发送调用日志和流日志,测试环境下调用日志压缩率可达 8:1,文档
    • ⭐ 性能:优化 Agent 中用于应用性能指标的 Cache 的内存占用,通过及时清理失效的 LRU 条目,测试环境下可见整体内存消耗降低 43%
    • ⭐ 性能:聚合存储 LB 探活产生的流日志,某生产环境下降低了将近 50% 的流日志存储开销,文档
    • ⭐ 性能:提升调用日志在 agent 侧的合并成功率,显著降低 response_status = Unknown 的调用日志比例,测试环境下可见 50% 的未知比例降低。
    • 优化应用协议识别失败时的资源开销保护机制,避免误禁止应用协议的解析,文档
    • 采集器列表支持展示所在 VPC 信息。
    • 限制 agent 发送数据的带宽消耗,默认允许发送 100Mbps 的数据,文档
    • Agent 发送流量达到限速时,支持选择丢弃等待的应对策略,默认行为丢弃,可配置为等待以提升数据发送成功率,文档