北大团队发布全球首创芯片设计存算一体排序架构

【导语】近日,北京大学集成电路学院与人工智能研究院的团队在国际上首次实现了基于存算一体技术的高效排序硬件架构,这一突破解决了传统计算架构在复杂非线性排序问题上的效率瓶颈。该架构将为具身智能、大语言模型、智能驾驶等AI应用提供更强大的算力支持。团队通过攻克多项核心技术难题,实现了排序速度与能效的显著提升,实测结果显示,在典型排序任务中运算速度提升超15倍,功耗仅为传统处理器的十分之一。这一创新成果有望推动下一代人工智能计算硬件的发展。

北大团队发布全球首创芯片设计存算一体排序架构

近日,由北京大学集成电路学院教授杨玉超、人工智能研究院研究员陶耀宇组成的团队,在国际上首次实现了基于存算一体技术的高效排序硬件架构,解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题,将为具身智能、大语言模型、智能驾驶、智慧交通、智慧城市等人工智能(AI)应用提供更高效的算力支持。

陶耀宇在接受《中国电子报》记者采访时表示:“排序,作为人工智能系统中最常用、最耗时的基础操作之一,广泛存在于自然语言处理、信息检索、图神经网络、智能决策等人工智能相关领域中。在传统的冯·诺依曼计算架构中,处理器与存储器分离的特点导致数据被频繁搬运,严重制约了计算速度和系统能效,因此将存储与计算融合的‘存算一体’架构是突破硬件性能的必由之路。”

例如,在大语言模型训练、机器人路径规划、强化学习搜索等场景中,快速评估多个决策或行动的优劣并进行排序,也是必不可少而又极为费时的步骤。然而,在传统计算(suàn)架(jià)构(gòu)下(xià),大(dà)规(guī)模(mó)的(de)非(fēi)线(xiàn)性(xìng)排(pái)序(xù)难(nán)以(yǐ)在(zài)端(duān)侧(cè)或(huò)边(biān)缘(yuán)设(shè)备(bèi)高(gāo)效(xiào)完(wán)成(chéng),这(zhè)一(yī)过(guò)程(chéng)消(xiāo)耗(hào)大(dà)量(liàng)时(shí)间(jiān)与(yǔ)功(gōng)耗(hào),制(zhì)约(yuē)了(le)具(jù)身(shēn)智(zhì)能(néng)、智(zhì)能(néng)驾(jià)驶(shǐ)等(děng)新(xīn)兴(xìng)技(jì)术(shù)的(de)发(fā)展(zhǎn)与(yǔ)普(pǔ)及(jí)。

近(jìn)年(nián)来(lái),“存(cún)算(suàn)一(yī)体(tǐ)”被(bèi)认(rèn)为(wèi)是(shì)突(tū)破(pò)传(chuán)统(tǒng)硬(yìng)件(jiàn)架(jià)构(gòu)计(jì)算(suàn)瓶(píng)颈(jǐng)的(de)关键技(jì)术(shù),已(yǐ)经(jīng)在(zài)矩(ju)阵(zhèn)计(jì)算(suàn)等(děng)规(guī)则(zé)性(xìng)强(qiáng)的(de)数(shù)值(zhí)计(jì)算(suàn)环(huán)节(jié)取(qǔ)得(de)显(xiǎn)著(zhe)成(chéng)果(guǒ)。然(rán)而(ér),由(yóu)于(yú)排(pái)序(xù)过(guò)程(chéng)仍(réng)存(cún)在(zài)逻(luó)辑(ji)复(fù)杂(zá)、操(cāo)作(zuò)非(fēi)线(xiàn)性(xìng)、数(shù)据(jù)访(fǎng)问(wèn)不(bù)规(guī)则(zé)、高(gāo)度(dù)依(yī)赖(lài)复(fù)杂(zá)比(bǐ)较(jiào)器网络,以及缺乏通用、高效的硬件排序原语等诸多障碍,目前国际主流的存算一体架构均无法解决大数据排序问题,上述难题成为了制约下一代人工智能计算硬件发展的前沿焦点与核心卡点问题。

北大科研团队本次发布的基于存算一体技术的高效排序硬件架构,围绕“让数据就地排序”的第一性原理目标,在存算一体架构上攻克了多个核心技术难题,实现了排序速度与能效的数量级提升。实现了多项突破:一是开发了一套基于新型存内阵列结构的高并行位读取机制;二是开创性地引入了忆阻器阵列,提出了按数、按位、多值三种并行策略,实现了低延迟、多通路的硬件级并行排序电路设计;三是在算子层面,优化了面向人工智能任务的算法—架构协同路径,同时兼容现有矩阵计算;四是完全自主设计的器件—电路—系统级技术栈整合。

实测结果显示,该硬件方案在典型排序任务中实现运算速度超过15倍的提升,但功耗仅为传统CPU或GPU处理器的1/10。在人工智能推理场景中,支持动态稀疏度下的推理响应速度可提升70%以上,特别适用于要求极高实时性的任务环境。