版本:v26.03

版本介绍

版本变更说明

新增特性

表 1 openFuyao v26.03新增特性信息

增强组件组件变更类型新增特性SIG
Cluster-API增强1. 提供组件健康检测接口 引导节点镜像仓库自依赖
2. 安装部署支持节点前置后置操作
3. 安装部署BKECluster CR 拆分,支持各节点CR单独运维
4. 安装部署架构优化
5. 支持部署chart形态插件
sig-Installation
env check新增提供安装部署前置检查工具sig-Installation
hermes-router增强新增容灾设计sig-ai-inference
Eagle eye增强新增网络静态指标(A2/A3代际主机侧&卡侧RDMA、主机侧PCIe带宽等)、实现负载 - NPU设备ID关联,以及部分设备亚健康指标(例如过载降频)。sig-ai-inference
Elastic scaler新增1. 基于时间因素的潮汐调度决策算法
2. 通用扩缩容决策框架
3. 面向PD分离场景的动态扩缩调度
sig-ai-inferenc
基础容器平台增强构建openFuyao统一日志框架sig-container-platform
npu-dra-plugin新增1.支持昇腾NPU设备的资源发现和上报。
2.支持通过DeviceClass/CEL进行设备筛选。
3.支持利用ResourceClaim/ResourceClaimTemplate进行资源申请,实现业务Pod与ResourceSlice的绑定。
4.支持通过CDI将设备注入容器。
sig-orchestration-engine
ub-network-device-plugin新增1.支持URMA设备的管理与按需分配。
2.支持设置URMA设备的网络命名空间。
sig-orchestration-engine
matrix新增1. 内存借用:基于UB内存池化机制,裸机容器场景节点或numa的内存使用率达到预设定的值,触发内存借用,将一部分内存压力分担到借过来的内存上。
2. 内存共享:支持通过内存池化能力将内存块在UBS Server集群内导入导出,实现在裸机上跨节点以及多进程间的内存共享,同时通过目录隔离和代理层保障资源的安全性与QoS。
sig-orchestration-engine
confidential-containers新增基于鲲鹏TEE技术,通过k8s+containerd+Kata+QEMU+KVM+CoCo的整套软件栈进行构建,实现机密容器部署sig-container-platform

删除特性

表 2 openFuyao v26.03删除特性信息

组件名称sig删除特性删除原因
AI推理软件套件sig-ai-inferance全量特性AI推理软件套件旨在提供一件事的AI推理服务部署能力,该能力已经在Infernex项目中覆盖,同时Infernex可以提供更加灵活的部署和其他推理功能,因此,AI推理软件套件在v26.03版本退出扩展组件。

接口变更说明

版本特性介绍

openFuyao master主要功能如表3所示,功能特性的具体信息请参见《用户指南》

表 3 openFuyao组件特性列表

分类组件名称特性描述
容器平台安装部署对接标准Cluster-API的安装部署工具,支持一键式安装业务集群,管理集群在统一管理面上提供多场景交互式业务集群生命周期管理能力,包括单/多节点安装(含高可用)、在/离线安装、集群扩缩容、Kubernetes原地升级等。
容器编排核心提供openFuyao Kubernetes,兼容K8s 1.34,提供高密部署、启动加速、日志增强、证书管理增强等增强功能。
管理面提供开箱即用的控制台,支持应用管理、应用市场、扩展组件管理、资源管理、仓库管理、监控、告警、用户管理、命令行交互等功能。
1.认证鉴权:内置OAuth2-Server,支持OAuth2.0协议,支持应用认证、授权、密码重置、密码策略等功能。并提供前端界面应用与非前端界面应用的统一认证、鉴权接入方案。
2.用户管理:提供跨集群的多用户管理能力,支持平台、集群层级的用户与管理者、操作者、观察者等角色的绑定。
3.命令行交互:为集群管理员在集群管理面提供命令行交互弹窗,使能管理员在控制台方便地直接通过后台kubectl命令管理集群。
4.应用市场:应用市场支持以Helm为主的扩展组件及应用的浏览、查找和部署功能,并提供算力加速套件,释放澎湃算力。
5.应用管理:集成Helm v3应用包管理器,可快速对应用进行部署、升级、回退和卸载等操作。可以查看Helm Chart详情、资源、日志、事件与监控信息。
6.仓库管理:提供内置Harbor仓库,支持上传和管理Helm Chart包。可添加、删除远程Harbor仓库,可从远程Harbor仓库同步Helm Chart包。
7.扩展组件管理:基于ConsolePlugin CRD开发的动态可插拔框架,支持扩展组件前端界面无缝集成到openFuyao的管理面,通过Helm Chart进行快速部署,并能便捷地进行升级、回退、启停前端界面和卸载等操作;同时支持扩展组件便捷接入平台认证鉴权系统保证安全性,实现组件的即插即用。
8.资源管理:资源管理包含Kubernetes全部核心资源及自定义资源定义,方便用户管理(增、删、查、改)。
9.事件:反映Pod、Deployment、StatefulSet等Kubernetes原生资源发生的变化。
10.RBAC管理:通过设置服务账号(ServiceAccount)、角色(Role)、角色绑定(RoleBinding)来实现对集群各资源的权限控制。
11.监控:提供开箱即用的指标采集及可视化展示能力,支持对集群、节点、工作负载等资源的监控,并提供开箱即用的监控看板。
12.告警:用于监控集群中的各种状态,并在特定条件满足时触发警报,及时发现问题,并采取必要的措施来确保系统的稳定性和可靠性。
独立发行组件在离线混部支持在线/离线业务混合部署,保障在线业务在使用高峰时期的调度与对离线业务的压制,同时使能离线业务在在线业务低谷时期使用超卖资源提升集群的资源利用率,利用率提高30%~50%,且QoS无明显影响,抖动低于5%。
NUMA亲和调度在集群级以及节点级实现硬件NUMA的拓扑感知,并基于NUMA亲和性对应用进行NUMA亲和调度,提升应用性能,平均吞吐率提升达30%,以redis为例性能提升平均达30%。
众核调度在集群级实现基于业务类型的反亲和调度与多维资源评分,性能下降小于5%的情况下容器部署密度提升10%。
Ray提供云原生场景下Ray的高易用、高性能、高算力利用率解决方案,支持Ray集群及作业的全生命周期管理,降低运维成本,并增强集群可观测性、故障定位与优化实践,实现高效的算力调度与管理。
KAE Operator实现分钟级鲲鹏KAE硬件的自动化管理能力,包含KAE硬件特征发现,驱动、固件、硬件设备插件等部件的自动化管理与安装能力,五分钟内可完成KAE部署到可用。
NPU Operator实现分钟级昇腾NPU硬件的自动化管理能力,包含NPU硬件特征发现,驱动、固件、硬件设备插件、指标采集、集群调度等部件的自动化管理与安装能力,十分钟内完成NPU部署到可用。
自定义监控看板支持用户根据自身业务需求定制监控指标,实现精准的数据观测和分析。
AI推理赫尔墨斯路由基于K8s GIE 框架构建的智能路由 EPP(Endpointer Picker)组件,支持 kv cache aware、bucket等多种路由策略,通过将推理请求路由到最合适的后端服务实例,优化大语言模型(LLM)推理服务的效率和性能。
PD编排集成潮汐算法、扩缩容决策框架与动态PD扩缩容三大能力,覆盖PD实例独立扩缩容、PD实例整组按比例扩缩容、指标驱动扩缩容、潮汐业务定时触发扩缩容等多个场景,保证业务在流量激增时的服务可用性。
AI推理鹰眼面向AI推理场景的可观测体系构建(含硬件资源可观测、业务运行态和系统运行态),支撑基础硬件容灾、LLM加速路由能力。
多集群管理多集群管理可将当前集群升级为管理集群,实现多集群的纳管联邦。
日志汇集集群中的各类型日志,提供查看、下载日志的能力,并提供根据预置的告警规则上报告警的功能。
灵衢网络设备插件使能业务使用URMA设备进行通信,降低通信时延,提升业务性能。
昇腾动态资源分配插件在Kubernetes原生DRA架构的基础上,完成了对昇腾NPU设备的深度适配,使用户不仅能够申请NPU设备,还可以基于设备属性、算力规格等元信息进行调度决策,从而实现更高性能、更高质量的异构计算资源调度。
UB内存池化组件对于跨节点大数据处理场景,通过内存共享能力避免数据复制,提升处理效率;对于高内存密度计算场景通过内存超分和借用机制,提升节点内存利用率,降低硬件成本。
高密容器提供了类似传统虚拟机的强隔离,避免不同容器之间的安全问题。

表4 openFuyao解决方案列表

解决方案SIG描述
大规模集群sig-large-scale-cluster完整包含智能路由、弹性伸缩和决策系统、可观测、分布式KVCache管理、以及端到端一键式部署能力,可灵活配置Hermes-router、Elastic-scaler、Eagle-eye、Mooncake组件的安装
inferNexsig-ai-inference提供稳定的超大规模集群,单集群聚焦Kubernetes核心组件优化、AI作业调度优化与TCP store键链优化,突破Kubernetes宣称的纳管上限,支撑128k卡(1.6万节点)集群。