版本介绍
版本变更说明
新增特性
AI推理优化:提供AI推理场景下的端到端加速解决方案,包含智能路由模块、推理后端模块、全局KV Cache管理模块、PD分离模块,对比轮询性能基线,实现推理吞吐量提升55%,同时时延降低40%。
AI推理软件套件:提供AI一体机集成解决方案,支持基础LLM推理全栈与DeepSeek的集成;具备开箱即用、可扩展等能力,适配NPU与GPU部分型号硬件。
openFuyao Kubernetes:升级K8s版本至1.33,并进行多项增强。
- 高密部署:支持每节点部署Pod 1000+;
- 启动加速:kubelet支持服务启动时CPU垂直扩容,加速Java程序启动;
- 日志增强:fuyao-log-runner支持日志轮转和可靠性增强;
- 证书管理:K8s证书支持热加载;
- PVC扩容:StatefulSet的PVC模板支持扩容。
多层次货架:提供一致性检查工具。
继承特性
表 1 openFuyao v25.09继承特性信息
| 特性名称 | 变更描述 |
|---|---|
| 安装部署 | 1. 支持引导节点与业务集群共节点部署,降低资源依赖。 2. 在引导节点管理界面优化新增用户管理功能,优化权限管理。 3. 优化离线安装包的制作,可按需选择扩展组件加入离线安装包。 |
| 在离线混部 | 1. Qos保障能力提升:新增多项rubik能力支持,如弹性限流、内存异步分级回收等,并为LS QoS级别Pod在NUMA亲和时候增加对memset的限制。 2. 代码重构:合并在离线混部仓库,优化在离线混部组件部署结构。 3. kubelet指标采集使用https端口,安全性提升。 |
删除特性
v25.09版本中,未更新Installer安装方式相关的部署包,可选择Cluster-API安装方式进行安装。
接口变更说明
无
版本特性介绍
openFuyao v25.09主要功能如表2所示,功能特性的具体信息请参见《用户指南》。
| 分类 | 特性名称 | 描述 |
|---|---|---|
| 基础平台功能 | 安装部署 | 对接标准Cluster-API的安装部署工具,支持一键式安装业务集群,管理集群在统一管理面上提供多场景交互式业务集群部署能力,包括单/多节点安装(含高可用)、在/离线安装、集群扩缩容、Kubernetes原地升级等。 |
| 容器编排核心 | 提供openFuyao Kubernetes,兼容K8s 1.33,提供高密部署、启动加速、日志增强、证书管理增强等增强功能。 | |
| 管理面 | 提供开箱即用的控制台,支持应用管理、应用市场、扩展组件管理、资源管理、仓库管理、监控、告警、用户管理、命令行交互等功能。 | |
| 认证鉴权 | 内置OAuth2-Server,支持OAuth2.0协议,支持应用认证、授权、密码重置、密码策略等功能。并提供前端界面应用与非前端界面应用的统一认证、鉴权接入方案。 | |
| 用户管理 | 提供跨集群的多用户管理能力,支持平台、集群层级的用户与管理者、操作者、观察者等角色的绑定。 | |
| 多集群管理 | 多集群管理可将当前集群升级为管理集群,实现多集群的纳管联邦。 | |
| 命令行交互 | 为集群管理员在集群管理面提供命令行交互弹窗,使能管理员在控制台方便地直接通过后台kubectl命令管理集群。 | |
| 组件安装管理 | 应用市场 | 应用市场支持以Helm为主的扩展组件及应用的浏览、查找和部署功能,并提供算力加速套件,释放澎湃算力。 |
| 应用管理 | 集成Helm v3应用包管理器,可快速对应用进行部署、升级、回退和卸载等操作。可以查看Helm Chart详情、资源、日志、事件与监控信息。 | |
| 仓库管理 | 提供内置Harbor仓库,支持上传和管理Helm Chart包。可添加、删除远程Harbor仓库,可从远程Harbor仓库同步Helm Chart包。 | |
| 扩展组件管理 | 基于ConsolePlugin CRD开发的动态可插拔框架,支持扩展组件前端界面无缝集成到openFuyao的管理面,通过Helm Chart进行快速部署,并能便捷地进行升级、回退、启停前端界面和卸载等操作;同时支持扩展组件便捷接入平台认证鉴权系统保证安全性,实现组件的即插即用。 | |
| Kubernetes原生资源管理 | 资源管理 | 资源管理包含Kubernetes全部核心资源及自定义资源定义,方便用户管理(增、删、查、改)。 |
| 事件 | 反映Pod、Deployment、StatefulSet等Kubernetes原生资源发生的变化。 | |
| RBAC管理 | 通过设置服务账号(ServiceAccount)、角色(Role)、角色绑定(RoleBinding)来实现对集群各资源的权限控制。 | |
| 算力调度优化 | 在离线混部 | 支持在线/离线业务混合部署,保障在线业务在使用高峰时期的调度与对离线业务的压制,同时使能离线业务在在线业务低谷时期使用超卖资源提升集群的资源利用率,利用率提高30%~50%,且QoS无明显影响,抖动低于5%。 |
| NUMA亲和调度 | 在集群级以及节点级实现硬件NUMA的拓扑感知,并基于NUMA亲和性对应用进行NUMA亲和调度,提升应用性能,平均吞吐率提升达30%,以redis为例性能提升平均达30%。 | |
| 众核调度 | 在集群级实现基于业务类型的反亲和调度与多维资源评分,性能下降小于5%的情况下容器部署密度提升10%。 | |
| Ray | 提供云原生场景下Ray的高易用、高性能、高算力利用率解决方案,支持Ray集群及作业的全生命周期管理,降低运维成本,并增强集群可观测性、故障定位与优化实践,实现高效的算力调度与管理。 | |
| 硬件自动化管理 | KAE-Operator | 实现分钟级鲲鹏KAE硬件的自动化管理能力,包含KAE硬件特征发现,驱动、固件、硬件设备插件等部件的自动化管理与安装能力,五分钟内可完成KAE部署到可用。 |
| NPU-Operator | 实现分钟级昇腾NPU硬件的自动化管理能力,包含NPU硬件特征发现,驱动、固件、硬件设备插件、指标采集、集群调度等部件的自动化管理与安装能力,十分钟内完成NPU部署到可用。 | |
| 可观测性 | 监控 | 提供开箱即用的指标采集及可视化展示能力,支持对集群、节点、工作负载等资源的监控,并提供开箱即用的监控看板。 |
| 自定义监控看板 | 支持用户根据自身业务需求定制监控指标,实现精准的数据观测和分析。 | |
| 日志 | 汇集集群中的各类型日志,提供查看、下载日志的能力,并提供根据预置的告警规则上报告警的功能。 | |
| 告警 | 用于监控集群中的各种状态,并在特定条件满足时触发警报,及时发现问题,并采取必要的措施来确保系统的稳定性和可靠性。 | |
| AI推理 | AI推理优化 | 提供AI推理场景下的端到端加速解决方案,包含智能路由模块、全局KV Cache管理模块、PD分离模块,实现推理性能提升。 |
| AI推理软件套件 | 提供AI一体机集成解决方案,支持基础LLM推理全栈与DeepSeek的集成;具备开箱即用、可扩展等能力,对NPU与GPU部分型号进行硬件适配。 |