阿里云发布全新AI计算解决方案:大型模型所需GPU数量减少82%

快科技10月21日报道,近日,阿里云在韩国首尔举行的大型学术会议SOSP 2025(操作系统原理研讨会)上发布了计算集群解决方案“Aegaeon”。 Aegaeon解决方案的核心是解决AI模型服务上浪费GPU资源的常见问题,特别是具有突发或不可预测需求的大型语言模型。这打破了传统的“模型与 GPU 绑定”的低效模型,而是在令牌级别虚拟化了对 GPU 的访问。这意味着多个不同的模型可以共享一个 GPU 以进行复杂的资源调度。作为推理时间调度器,阿里云 Aegaeon 系统会动态决定是否切换模型,并在每次生成下一个令牌时将小块工作放入共享池中。通过组件复用、复杂的内存管理、KV缓存同步优化等全栈技术,Aegaeon减少了del 切换开销降低97%,保证令牌级调度实时性,支持亚秒级模型切换响应。在阿里云模型市场历时三个多月的公测中,Aegaeon系统在处理数十个720亿参数的大型模型时,所需的NVIDIA H20 GPU数量从1192块大幅下降到213块,减少幅度高达82%。 GPU 使用量的显着减少对于硬件采购成本较高的大型模型服务提供商来说意味着显着节省成本。目前,该核心技术已应用于阿里云白联平台。
特别说明:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由社交媒体平台网易号用户上传并发布,提供仅信息存储服务。

此条目发表在吃瓜热门分类目录。将固定链接加入收藏夹。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注