版本:v25.12

版本介绍

版本变更说明

新增特性

表 1 openFuyao v25.12新增特性信息

特性名称描述
AI推理鹰眼eagle eye面向AI推理场景的可观测体系构建(含硬件资源可观测、业务运行态和系统运行态),支撑基础硬件容灾、LLM加速路由能力。
大规模集群支持16000节点集群部署,端到端调度时长<3分钟。

继承特性

表 2 openFuyao v25.12继承特性信息

特性名称功能新增
安装部署1. 大版本升级:提供openFuyao集群自动化升级能力,包含对补丁版本和候选版本及稳定大版本的升级。
2. 前置环境校验工具:支持对前置环境进行路径校验,扫描系统中是否存在可能影响安装部署的K8s组件残留。
3. 支持在线镜像仓库、chart仓库及二进制仓库的自定义配置。
4. 支持后端对kubelet和containerd组件的配置扩展和自定义。
5. 允许部分worker节点安装部署失败场景下的集群创建。
6. 支持后端证书自定义配置,并进行kubeconfig权限降级。
7. 支持后端安装业务集群通过addon配置所部署组件时根据节点标签进行亲和性部署。
AI推理赫尔墨斯路由开源网关集成与路由策略演进,实现服务请求级与实例请求级路由协同。
管理面安全:扩展组件支持https安全协议通讯。

删除特性

接口变更说明

版本特性介绍

openFuyao v25.12主要功能如表2所示,功能特性的具体信息请参见《用户指南》

表 2 openFuyao功能特性列表

分类特性名称描述
容器平台安装部署对接标准Cluster-API的安装部署工具,支持一键式安装业务集群,管理集群在统一管理面上提供多场景交互式业务集群生命周期管理能力,包括单/多节点安装(含高可用)、在/离线安装、集群扩缩容、Kubernetes原地升级等。
容器编排核心提供openFuyao Kubernetes,兼容K8s 1.34,提供高密部署、启动加速、日志增强、证书管理增强等增强功能。
管理面提供开箱即用的控制台,支持应用管理、应用市场、扩展组件管理、资源管理、仓库管理、监控、告警、用户管理、命令行交互等功能。
认证鉴权内置OAuth2-Server,支持OAuth2.0协议,支持应用认证、授权、密码重置、密码策略等功能。并提供前端界面应用与非前端界面应用的统一认证、鉴权接入方案。
用户管理提供跨集群的多用户管理能力,支持平台、集群层级的用户与管理者、操作者、观察者等角色的绑定。
命令行交互为集群管理员在集群管理面提供命令行交互弹窗,使能管理员在控制台方便地直接通过后台kubectl命令管理集群。
应用市场应用市场支持以Helm为主的扩展组件及应用的浏览、查找和部署功能,并提供算力加速套件,释放澎湃算力。
应用管理集成Helm v3应用包管理器,可快速对应用进行部署、升级、回退和卸载等操作。可以查看Helm Chart详情、资源、日志、事件与监控信息。
仓库管理提供内置Harbor仓库,支持上传和管理Helm Chart包。可添加、删除远程Harbor仓库,可从远程Harbor仓库同步Helm Chart包。
扩展组件管理基于ConsolePlugin CRD开发的动态可插拔框架,支持扩展组件前端界面无缝集成到openFuyao的管理面,通过Helm Chart进行快速部署,并能便捷地进行升级、回退、启停前端界面和卸载等操作;同时支持扩展组件便捷接入平台认证鉴权系统保证安全性,实现组件的即插即用。
资源管理资源管理包含Kubernetes全部核心资源及自定义资源定义,方便用户管理(增、删、查、改)。
事件反映Pod、Deployment、StatefulSet等Kubernetes原生资源发生的变化。
RBAC管理通过设置服务账号(ServiceAccount)、角色(Role)、角色绑定(RoleBinding)来实现对集群各资源的权限控制。
监控提供开箱即用的指标采集及可视化展示能力,支持对集群、节点、工作负载等资源的监控,并提供开箱即用的监控看板。
日志汇集集群中的各类型日志,提供查看、下载日志的能力,并提供根据预置的告警规则上报告警的功能。
告警用于监控集群中的各种状态,并在特定条件满足时触发警报,及时发现问题,并采取必要的措施来确保系统的稳定性和可靠性。
独立发行组件在离线混部支持在线/离线业务混合部署,保障在线业务在使用高峰时期的调度与对离线业务的压制,同时使能离线业务在在线业务低谷时期使用超卖资源提升集群的资源利用率,利用率提高30%~50%,且QoS无明显影响,抖动低于5%。
NUMA亲和调度在集群级以及节点级实现硬件NUMA的拓扑感知,并基于NUMA亲和性对应用进行NUMA亲和调度,提升应用性能,平均吞吐率提升达30%,以redis为例性能提升平均达30%。
众核调度在集群级实现基于业务类型的反亲和调度与多维资源评分,性能下降小于5%的情况下容器部署密度提升10%。
Ray提供云原生场景下Ray的高易用、高性能、高算力利用率解决方案,支持Ray集群及作业的全生命周期管理,降低运维成本,并增强集群可观测性、故障定位与优化实践,实现高效的算力调度与管理。
KAE Operator实现分钟级鲲鹏KAE硬件的自动化管理能力,包含KAE硬件特征发现,驱动、固件、硬件设备插件等部件的自动化管理与安装能力,五分钟内可完成KAE部署到可用。
NPU Operator实现分钟级昇腾NPU硬件的自动化管理能力,包含NPU硬件特征发现,驱动、固件、硬件设备插件、指标采集、集群调度等部件的自动化管理与安装能力,十分钟内完成NPU部署到可用。
自定义监控看板支持用户根据自身业务需求定制监控指标,实现精准的数据观测和分析。
AI推理赫尔墨斯路由基于K8s GIE 框架构建的智能路由 EPP(Endpointer Picker)组件,支持 kv cache aware、bucket等多种路由策略,通过将推理请求路由到最合适的后端服务实例,优化大语言模型(LLM)推理服务的效率和性能。
AI推理软件套件提供AI一体机集成解决方案,支持基础LLM推理全栈与DeepSeek的集成;具备开箱即用、可扩展等能力,对NPU与GPU部分型号进行硬件适配。
AI推理鹰眼面向AI推理场景的可观测体系构建(含硬件资源可观测、业务运行态和系统运行态),支撑基础硬件容灾、LLM加速路由能力。
多集群管理多集群管理可将当前集群升级为管理集群,实现多集群的纳管联邦。
大规模集群支持16000节点集群部署。