Please select your location and preferred language where available.
高速存储UFS 5.0引领的端侧新时代
翻译源: EE Times Japan
翻译自 EE Times Japan 2026年2月25日发布文章
本文经过EE Times Japan同意后转载
部门名称、头衔为采访当时的内容
配备10.8GB/s高速接口的UFS 5.0即将问世。铠侠认为,智能手机采用UFS 5.0将进一步推动端侧的发展。这种大容量、高速数据传输的UFS,能够存储大容量的大规模语言模型(LLM)及检索增强生成(RAG)专用数据库。
迅速提升智能手机的端侧功能
搭载AI的智能手机(AI智能手机)正在迅速普及。特别是2023年以后推出的高端AI智能手机搭载了大规模语言模型(LLM),加入了生成式AI应用。端侧AI(指在终端设备内运行生成式AI的功能)无需云端AI那样依赖网络,具有保护隐私的优点,除此之外还能为用户提供实时翻译等便利的服务。
提升端侧AI性能的关键在于,需要专门为智能手机等移动设备设计闪存存储规格UFS(Universal Flash Storage,通用闪存存储)。铠侠强调,最新的UFS规格UFS 5.0有望显著改变端侧的格局。
UFS 5.0的高速接口让LLM大模型更聪明
UFS目前是智能手机的存储主流。高端机型一般采用UFS 4.0/4.1,铠侠也在为智能手机厂家量产基于UFS 4.0/4.1规格的产品。
制定半导体产品等标准规格的业内组织JEDEC(Joint Electron Device Engineering Council,联合电子设备工程委员会)于2025年10月发布称已基本完成UFS 5.0规格制定工作。
UFS 5.0的最大特点是,高达10.8GB/s(10,830MB/s)(注1)的传输速度。其传输速度惊人,是高端智能手机中搭载的UFS 4.1(4,640MB/s)的2倍以上。铠侠存储器事业部的渡边匠先生说:“随着AI的普及,对UFS接口高速化的需求突然激增”。“以往是标准制定先行,传输速度约每四年翻倍一次。但近年来,随着端侧技术的演进,智能手机制造商对高速化的要求日益迫切。"
传输速度的飞跃提升,有望为端侧的高性能化提供强力支持。这将使更大规模的LLM能够搭载于智能手机。
在智能手机上使用生成式AI功能时,存储在UFS中的LLM首先被加载至系统内存DRAM中。然后,由SoC(System on Chip)从DRAM读取LLM的参数,并执行运算处理(推理)。
问题在于,近年来为了使生成式AI“更智能”,LLM的参数数量呈现增长趋势。据统计,端侧AI搭载的LLM参数数量约有30~40亿之多。若将其量化为8位(INT8),则容量约为3GB~4GB(注2)。渡边表示:“以UFS 4.0/4.1的传输速度,可在1秒以内读取,但若LLM容量增大,会延长加载时间,用户收到首个响应的时间(Time to First Token)也会相应增加。”但为了提升生成式AI“智能化程度就需要搭载更大规模的LLM,这必然要求UFS具备高速的传输速度。
凭借高达10.8GB/s的UFS 5.0传输速度,即使参数数量增加,也能实现大型语言模型的高速加载。这将直接提升端侧的用户体验。“UFS 4.0/4.1的可适用LLM容量为3~4GB,而UFS 5.0可将这一容量提升至约10GB。”渡边先生说道。
据渡边先生介绍,铠侠的UFS技术有三大优势。其一是闪存。铠侠的UFS 5.0采用的3D闪存是最新一代的“第8代BiCS FLASH(注3),它应用了铠侠独有的“CMOS directly Bonded to Array(CBA,CMOS直接键合阵列)”技术,该技术将两片晶圆高精度地键合在一起。CBA技术是指,将负责存储单元控制的CMOS电路和存储单元阵列分别构建在不同的晶圆上,然后将这两片晶圆高精度地键合在一起。由于闪存能够分别采用适合CMOS电路和存储单元的工艺进行制造,因此可显著提高闪存性能、能效和位密度。
其二是公司自主研发的闪存控制器技术。UFS 5.0的物理层采用MIPI Alliance规格“M-PHY version 6.0”,协议层采用“UniPro version 3.0”。铠侠早在标准制定初期便深度参与。并率先开发了UFS 5.0的高速接口。此外,铠侠还优化控制器的电源设计,实现了高性能和低功耗,满足需要电池供电的移动设备的需求。其三是ECC(错误校正码)技术。强大的ECC技术能够最大限度地发挥闪存性能。
智能手机端亦可部署RAG
使用传输速度更快的UFS5.0,不仅可以部署更大规模的LLM,而且还为存储RAG(Retrieval-Augmented Generation,检索增强生成)专用数据库提供了可能。RAG是一种将企业数据库等的外部信息与LLM相结合,提高生成式AI回答精度的技术。
铠侠发布了面向数据中心RAG(文本生成式人工智能)的开源数据搜索软件“KIOXIA AiSAQ(注3)”。使用KIOXIA AiSAQ, RAG专用数据库可直接将存储在SSD中数据进行检索,所以不占用DRAM。另外,铠侠也在讨论将KIOXIA AiSAQ运用于智能手机端,并已完成技术验证。RAG专用数据库不依赖DRAM扩展,而是配置于UFS中,因此可以扩充RAG专用数据库的容量。
在DRAM容量受限于成本的背景下,若能在大容量UFS中存储LLM与RAG专用数据库,端侧的用户体验必将得到进一步提升。
优化AI系统,隔离AI的思考与知识库
铠侠先进技术研究所AI‧系统研发中心组长出口淳先生表示,UFS 5.0的推出为端侧的系统配置带来新的优化,或将改变在智能手机中的存储定位。
正如前文所述,提升AI智能程度的方法之一是扩大LLM的规模。为了“存储知识”而增加LLM的参数数量,其相应地运算量也将随之增加。所以,必须提升GPU的运算性能。出口先生将此描述为“通过运算再现知识的一种状态”。
“就现状而言,AI的思考能力(推理性能)与知识(数据)均通过运算来表现。但若继续按此趋势增长,即使从成本和电力的角度考量,终将面临瓶颈”出口先生说道。我们难道不应将AI的思考能力与知识存储“分离”开来吗?铠侠正是基于这一理念,早在生成式AI普及数年前,从闪存和软件两方面致力于研发工作,以实现这一“分离”。KIOXIA AiSAQ正是这一努力的成果之一。
最终,如果我们能够将思考能力与知识存储“分离”开来,就可以只用GPU进行思考(推理),用闪存来存储知识。这是一种能够发挥设备原有功能的最佳方式。由于运算量减少,降低了GPU的功耗,也为采用低功耗的AI加速器等方案拓宽了选择范围。“通过因地制宜地选用半导体器件,我们或许能以不同于以往的方式,优化整个AI系统。”出口先生说道。
跨入新时代,把“记忆”变成AI的个性
在数据转化为“知识”的AI时代,闪存、UFS的定位也在发生变化。出口先生说“此前,它们仅被视作汇集AI学习数据的存储器”,但铠侠认为,未来的闪存、UFS将在塑造AI个性化方面发挥积极作用。
“人类的个性是由记忆、经验而形成的。今后,即使基于相同的LLM,也能通过添加RAG专用数据库这样的外部‘记忆与经验’,转化为更具个性的形态。而承载这些塑造AI个性的记忆与经验的载体,正是闪存,这也正是我们所钻研的技术。这与铠侠公司的使命‘记忆由芯,世界尤新’一脉相承。”出口先生说道。
通过高速的数据传输,进一步提升了LLM、RAG专用数据库的使用效率。集结铠侠技术的UFS 5.0产品将支持不断发展的AI系统,并在使端侧“更智能”运行和“更具个性”方面发挥重要作用。
Notes
※本报道基于刊登时的信息,可能与最新信息存在差异。
- 注1:按1GB/s为1,000,000,000字节/秒,1MB/s为1,000,000字节/秒进行计算。该值为根据接口速度计算所得的理论值,不保证使用设备的速度。读取及写入速度根据主系统、读取/写入条件、文件容量等有所变化。
- 注2:按1GB为1,073,741,824字节进行计算。
- 注3:“BiCS FLASH”及“KIOXIA AiSAQ”是铠侠株式会社的注册商标。
请同时参阅
高精度的双晶圆键合
为高密度化存储器带来新价值的3D闪存
近年来,各家闪存厂商尤为着力的,就是对通过存储单元“高层数”方式以提高存储密度的技术的开发。每当有新一代闪存产品发布,层数就会有所增加,有些产品甚至已经超过了200层。但是,铠侠存储器事业部部长井上敦史则表示:“存储单元的‘高层数’只不过是大容量化和存储密度升级的方法之一,我们并不拘泥于积层数的增加。”