模型开源并不意味着模型可用,绝大多数的开源模型仅适配某单一闭源芯片硬件生态,不同芯片的适配方案无法互通,生态高度分裂,适配各种AI硬件需要投入大量人力,效率低下。此外,每个模型的更新都需要重新适配,维护成本高企。
为了让开源大模型人人可用、多种硬件可运行,降低人工智能计算的门槛,智源研究院研发了面向多种AI芯片的大模型自动迁移、多芯片发版平台 FlagRelease。依托统一、开源的AI系统软件栈FlagOS提供的跨芯适配能力,FlagRelease 打造了一套将大模型自动迁移至不同硬件架构、自动评测迁移结果、内置自动部署调优功能并自动发布模型多芯版本的标准流程。用户可从魔搭或Hugging Face的FlagRelease入口找到所需开源大模型对应的不同芯片版本,下载即可直接使用,无需迁移。FlagRelease彻底改变了AI模型与多元异构硬件的关系,让模型发展不再受制于硬件生态壁垒。
FlagRelease当前面向7种不同硬件,完成了12个最新开源大模型的适配迁移,包括Qwen、DeepSeek、ERNIE、RoboBrain、MiniCPM等。智源期待与更多硬件厂商和模型团队合作,拓展硬件和大模型的适配种类。
FlagRelease自动发版流程
FlagRelease在多个平台的官方链接:
魔搭社区:
https://www.modelscope.cn/organization/FlagRelease
魔乐社区:
https://modelers.cn/FlagRelease
HuggingFace:https://huggingface.co/FlagRelease
一、FlagRlease的核心技术:FlagOS
当前,AI芯片架构与指令集各异,系统软件互不兼容,人工智能算法代码和模型文件很难进行跨架构迁移,这一问题已困扰人工智能发展多年,行业需要支持多种芯片硬件的统一编译器、算法库、计算框架等,实现多芯片之间的跨架构迁移。
FlagRelease得以做到自动跨芯迁移,核心在于FlagOS软件栈的支持。FlagOS是面向多种AI芯片的统一、开源软件栈,包括了面向多种芯片架构的统一编译器FlagTree、基于Triton语言的通用算子库FlagGems、高效训练推理框架FlagScale和统一通信库FlagCX等核心技术库组成。FlagOS技术栈由智源研究院、中科院计算所、北京大学、清华大学、先进编译实验室、硅基流动、基流科技、中科嘉禾及众多芯片厂商共同打造。当前FlagOS技术栈已经支持了来自10家芯片公司、18种不同芯片。
二、FlagRelease:自动跨芯迁移及发版
基于FlagOS技术栈,FlagRelease可将开源大模型自动迁移至不同的AI加速芯片,并发布完整的迁移成果——包括代码、模型文件和适配多硬件的Docker镜像。
开源模型依赖分析
FlagRelease可识别迁移任务,支持选择目标芯片,智能分析模型的环境、框架、算子库等依赖因素。平台用户可根据模型基本信息识别其任务类型,选择计划迁移的目标芯片,智能分析模型的环境、框架、算子库等依赖因素。在使能基础环境、框架、算子库等不同层级的软件过程中,FlagRelease会对每一模块进行可用性分析,基于AI生态各层级的特点进行针对性的异常识别与修复。主要分为以下几个层级:
系统环境预校验:对平台提供的基础镜像进行系统依赖完整性前置检查,期望排除网络环境问题、操作系统软件源配置问题、编译器环境配置异常等问题。
AI生态环境智能分析:平台将自动尝试以默认环境进行框架、FlagGems算子库安装,模型迁移与多维度评测。当不同模型存在个性化环境依赖时,平台自动捕获并分析异常日志,形成供决策的环境分析结论。
AI生态环境智能修复:平台引入智能手段根据环境分析结论,自动匹配适合的自动修复方案,如:安装缺失依赖、补全环境变量配置、修改算子实现、修复框架服务配置等。匹配方案后由智能体自动执行修复工具,并对关键修复结果进行二次校验。
分析与修复完成后,平台重新尝试执行原始任务,若仍失败,则进入下一轮异常识别与修复,直至任务成功或达到最大重试阈值。
模型自动迁移
为了实现模型在多种目标硬件上的自动迁移与高效部署,FlagScale 框架持续构建一系列自动化能力。包括:
进行框架支持代码级自动测试:在任务启动前自动校验模型在当前运行环境中的兼容性与稳定性,确保模型运行无误。
为用户准备好一键部署能力:通过YAML 配置和结合内置主流模型模板,实现一键部署任务,包含单机和分布式任务,显著降低部署门槛,并通过FlagScale框架内置的负载均衡机制,用户无需额外配置,FlagScale即可自动完成多节点间的任务分配和调度。
提供针对迁移后的模型自动推理部署调优工具:最终用户只需在配置文件中设置自动调优关键字,即可触发并行策略优化与执行参数的自动调优过程,最大化利用硬件能力,也支持用户自定义搜索空间和优化目标(如吞吐量、端到端时延等),实现更精细的性能调控与部署优化。具体过程如下图所示:
首先,用户只需提供目标模型配置和目标硬件数量,框架据此解析模型的计算与通信特性,结合当前资源约束,自动选择可用的硬件数量和策略空间。
接下来,框架会自动枚举包括并行方式(如张量并行、流水并行)、实例数量、批大小等关键可调维度,构建一个包含离散与连续参数的多维搜索网格,作为性能调优的基础搜索空间。
然后,通过生成候选配置并进行临时部署环境,自动构建内置样例数据集模拟真实推理负载场景,在线采集关键性能指标如吞吐量、延迟、显存占用和资源利用率。
基于这些评估结果,框架动态更新当前的“最优配置”候选。在此基础上,FlagScale框架将基于历史评估结果持续迭代,执行“生成—部署—评估—更新”的自动优化循环,逐步减少搜索空间以提高搜索效率。
最终,当性能提升趋于饱和,或已达到预设的阈值或时间限制,将冻结最优配置,自动切换至正式部署模式,并完成服务实例的负载均衡配置、健康检查接入及实时监控挂载,确保推理服务稳定、高效地输出。
迁移后的模型评估
为了实现从一种AI加速芯片架构迁移到另一种架构,需要把底层算子库、编译器等都进行替换。因此,在替换了底层软件栈和硬件后,是否能够维持原有的模型效果是广大用户高度关注的核心问题。为了科学严谨地评估迁移适配后的模型表现,FlagRelease依托FlagEval(https://flageval.baai.ac.cn/)大模型评测工具,制定并实施了一套标准化、可复现的系统验证流程。
在充分确认迁移至不同AI加速芯片后的模型不存在显著性能损失后,模型方可进入正式发布阶段。该流程不仅有效规避了芯片兼容性带来的潜在风险,还切实保障了新算力平台上线的系统质量和用户体验,为多芯片生态适配及大模型工程化演进提供了坚实的技术基础。
具体而言,从知识应用、复杂推理、代码生成、数学能力等多个维度对模型进行系统性评测。为确保评测标准的一致性和科学性,测试过程中严格统一所使用的数据集、参数设置及评测脚本。此外,为保证评测结果的可量化和可对比,采用绝对差异和百分比差异两种指标,分别描述迁移后模型与原生模型之间的性能变化,计算方法如下:
在多组核心评测集上,只有当模型各项指标的平均百分比差异小于5%时,才判定迁移过程未引发显著性能损失,并推动迁移后的模型和代码进入正式上线环节。通过上述严谨流程,能够以客观、数据驱动的方式,最大限度保障模型迁移的可靠性和业务落地的稳定性。由于当前评测的异构集群资源有限,未来将增加更多评测维度。
在经过上述重要步骤后,迁移后的模型和代码达到发布的要求,FlagRelease即自动生成包括模型说明、使用步骤和评估结果的用户文档,自动将迁移后的模型相关文件发布至Hugging Face和魔搭等平台,迁移后的代码发布至Gitee和Github,运行镜像发布至阿里云,形成用户“开箱即用”的资源。FlagRelease极大降低了大模型的使用门槛,节省开发者的迁移和部署时间。
魔搭平台上的FlagRelease已上线模型
目前,FlagRelease已在魔搭和Hugging Face上线了共30个不同版本的模型,覆盖7种芯片。以Qwen3 - 4B、RoboBrain2.0 - 7B 等模型在不同芯片(如 Cambricon、Ascend 等)与基准(如 H100 - CUDA )的迁移前后评测对比为例,LIVEBENCH、AIME、GPQA 等多项指标显示FlagRelease发布的跨芯片迁移版本的模型性能与原模型一致。通过FlagRelease 在跨芯片模型迁移的质量把控,不但为用户在多种芯片上使用大模型提供了“开箱即用”的方便,更是提供了“质量一致”的重要保障。
在FlagRelease上发布的迁移后模型说明文件举例
三、FlagRelease上的多芯片模型版本,三步部署可用
FlagRelease的目标是希望降低用户的计算使用门槛,在面对新的硬件平台(FlagRelease已经支持的),用户无需迁移,使用FlagRelease发布的版本,即可在新的硬件上运行大模型。
以下以Qwen3-4B-flagos模型在寒武纪使用为例讲解,其他厂商和模型同理。
第一步:下载模型权重,flagRelease通常提供源于官方的版本或量化版本
第二步:拉取由FlagRelease发布的镜像并启动容器,具体见官方Readme
第三步:使用flagScale Serve一键部署推理服务
部署模型后,可使用 API 或者配置AnythingLLM 应用程序调用模型
四、推动人工智能计算普惠化,降低创新门槛
在2025年7月日内瓦举办的Global Digital Collaboration大会上,智源研究院提出了Open Data、Open Model、Open Compute的全球开源合作倡议。在人工智能大模型浪潮中,需要通过Open Compute开放计算,让多元AI硬件能够轻松支持大模型应用与AI创新,从而降低计算门槛,实现人工智能的计算普惠化。
而支持Open Compute的关键技术是统一、开源的AI系统软件栈。智源研究院联同全球社区力量一起打造的FlagOS技术栈,以公益开源的方式推动其生态发展,正是践行计算普惠化这一信念的核心。FlagRelease的推出可进一步降低计算门槛,让用户“无需迁移”、“开箱即用”。
为了进一步推动多种AI硬件的产业落地和统一开源生态FlagOS的开发者生态发展,FlagOS技术社区通过FlagRelease积极支持各种大赛和创新。近期,在由云计算开源产业联盟、天翼云、魔乐社区联合承办,万卡智算集群服务推进方阵ICCPA、启智社区、智源研究院、商汤大装置协办的2025 全国高性能云计算创新大赛(2025 MAXP 大赛)中,参赛团队可直接调用基于 FlagRelease 适配的多款AI芯片的 Qwen3-4B 等模型进行任务开发。
未来,依托FlagRelease大模型自动迁移发版的平台能力,可持续产生多种芯片+开源模型的开源版本组合,助力大模型在多种芯片上的自动高效迁移,推动AI生态的跨架构协同发展,降低大模型创新和应用的计算门槛,让计算普惠化,并助力人工智能计算架构的不断创新和突破。
启泰网-配资点评网-正规股票配资官网网址-股票投资公司排名前十提示:文章来自网络,不代表本站观点。