导语:单芯片160TOPS就能运行百亿参数年夜模子的漫界M50,是后摩智能怪异竞争力的表现。 “四年前创业时,我常被问道:存算一体那末好,为何他人不做?”后摩智能开创人兼CEO吴强深有领会,“此刻一些上市公司或者者行将上市的公司都说要结构存算一体,没有人再问四年前的问题,各人意想到了存算一体芯片对于在年夜模子的上风。” 存算一体芯片的赛道已往几年确凿十分热闹,海内就有十多家公司结构差别技能线路、差别算力的存算一体芯片。 后摩的壁垒是甚么?吴强说,“看论文做一个测试芯片,证实技能道理不难。咱们的壁垒是将存算一体芯片量产,已往四年咱们趟过无数的坑,解决了一个又一个量产难题。” 世界人工智能年夜会2025(WAIC)前夜,后摩智能发布了行将于本年第四序器量产的端边年夜模子AI芯片——后摩漫界M50,这是一款单芯片就能运行百亿参数年夜模子的存算一体芯片。 吴强吐露,后摩智能已经启动下一代 DRAM-PIM 技能研发。 率先起跑,一次转向,后摩智能建起壁垒 2020年吴强创业时,选择存算一体技能线路有两个焦点缘故原由,一个缘故原由是吴强博士论文的标的目的是高能效比计较芯片以和编译器,吴强甚至要解决功耗墙及存储墙问题,必需走存算一体线路。另外一个是看到英伟达的强盛,决议用立异的架构另辟蹊径,测验考试弯道超车。 存算一体技能于学术界研究许多,但要将学术研究转化成贸易化落地的产物,中间还有有巨年夜的鸿沟。 “论文里能看到理论及道理,但要把存算一体技能转化为量产产物,必需解决可测性及靠得住性问题,中间有没有数的坑。”吴强说,“没有人做过存算的DFT(Design for Testability,可测性设计),也不知道怎么做BIST(Built-in Self-Test,内建自测试技能),怎样解决小面积年夜算力带来的电源不变性问题?” 业界没有人碰到这些问题,也没有对于应的制造工艺及EDA软件,后摩智能的团队就只能用平凡的工艺及EDA软件弥补中间巨年夜的鸿沟。 “咱们很是但愿友商一路做,把存算一体芯片的生态做好。”吴强说。 靠着后摩研发团队霸占一个个难题,2023年后摩发布了海内首款年夜算力存算一体智驾芯片鸿途H30,最高物理算力256TOPS,典型功耗35W。 今后虽有后摩智能融资的动静,但一直没有后摩智能产物及落处所面的动静,直到2025年7月的世界人工智能年夜会2025(WAIC)。 谈和此事,吴强告诉雷峰网(公家号:雷峰网),2023年下半年整个主动驾驶赛道竞争很是激烈,格式逐渐不变,给新入局者的时机愈来愈少。 “咱们第一代芯片为了表现存算一体的上风,算力很高,也象征着成本高。但其时市场都于讲低成本,咱们的年夜算力芯片及汽车芯片市场的需求有鸿沟。”吴强坦言,“那时辰于纠结要不要转型,抛却汽车市场到一个新范畴很疾苦,但又知道主动驾驶芯片对于咱们来讲是一条走欠亨的路。” “末了保存的压力战胜了体面,2023年下半年最先转型。”吴强说,“咱们看到了端边年夜模子的新兴市场,没有巨头公司,与存算一体芯片的合用场景又很契合,2024年头快速调解第一代芯片,针对于年夜模子优化推出了漫界M30。” 于股东中国挪动的帮忙下,后摩智能的漫界M30随中国挪动于2024年的世界挪动通讯年夜会(MWC)表态,这款芯片可以或许运行60B参数的模子,给了吴强及团队决定信念。 在是后摩智能就坚定转到端边年夜模子芯片的市场,颠末近两年时间,推出了第二代IPU架构的存算一体量产芯片漫界M50。 不管是将存算一体芯片从学术界推向贸易市场,还有是芯片运用落地的选择,此中趟过的坑,走过的弯路堆集下来的经验,都是后摩于存算一体赛道及国产芯片公司里的壁垒。 这个壁垒,帮忙后摩智能可以或许更好设计第二代芯片。 单芯片160TOPS,能运行百亿参数年夜模子 后摩漫界M50采用的是自研的第二代IPU 架构——天璇,实现了160TOPS@INT八、100TFLOPS@bFP16的物理算力,搭配最年夜48GB内存与153.6 GB/s的超高带宽,典型功耗仅10W,相称在手机快充的功率,就能让PC、智能语音装备、呆板人等智能挪动终端高效运行1.5B到70B参数的当地年夜模子。 患上益在存算一体经由过程把计较及存储单位集成于一路,让数据就近处置惩罚,能从底子上解决传统芯片“数据传输慢、功耗高”问题的特征,及传统架构比拟,M50的能效晋升5~10倍,能充实满意端边装备"算患上快又吃患上少"的需求。 但为了可以或许最年夜水平阐扬存算一体架构的上风高效运行年夜模子,后摩智能举行了一系列的优化,吴强重点分享了两个优化。 一个是弹性加快,这个技能与GPU的稀少加快有点近似。GPU的稀少加快,是于碰到权重参数为“0”时,跳过计较,实现加快。但这类方式权重必需严酷为“0”,于实际运用中,要让年夜量权重都刚好为“0”长短常坚苦的,是以GPU的稀少加快效果往往不尽如人意。 SRAM存算一体技能是根据一个比特(bit)一个比特举行串行计较,这象征着后摩可以做到更细粒度的优化。 “咱们其实不需要整个权重是0,只要它于bit内里有0,就可能做弹性加快。”吴强先容,这让加快的时机年夜年夜增长,也让量化变患上越发矫捷,可以实现7bit、6bit甚至5bit的超低精器量化,从而于不捐躯太多精度的环境下,将机能压榨到极致。 据悉,天璇架构最高可实现160%的加快效果。 另外一个优化是直接撑持浮点运算。“基在存算的架构做浮点运算,并把它量产,咱们于业内应该是第一个。”吴强注释,芯片直接撑持浮点运算,象征着开源或者者FP16的浮点模子可以直接运行,可以或许晋升适配及运用的效率,只有非凡需要的环境下才会做分外的量化,这进一步降低了漫界M50芯片运用落地的难度。 对于在用户来讲,易用性还有是取决在上层的软件,包括编译器。 “第一代编译器用传统的方案做,许多功效阐扬不出来,以是中间重构了一遍,彻底从0-1。”吴强说,“咱们也是逐渐地探索,这类经验于外面看不到,这是咱们堆集的壁垒。” 传统的NPU编译器有几百个选项,手动调优坚苦,致使上手门坎高、利用未便。 后摩重构的编译器后摩年夜道,运用了主动的优化算子,只要给一些输入的图Graph,它就能主动搜刮最优化的计谋,无需开发者手动测验考试,撑持浮点运算,无需量化参数及精度调优,闪开发者更易上手。 从硬件到软件,后摩解决了AI芯片落地的技能难题,市场计谋成为后摩走向贸易化乐成的下一个要害。 多元产物组合,重点拓展三年夜范畴 基在漫界M50内建的高速多芯互联技能,后摩智能推出了笼罩端侧到边沿的多元算力方案。 力擎LQ50 M.2 卡以口喷鼻糖巨细的尺度 M.2 规格,为 AI PC、AI Stick、陪伴呆板人等挪动终端提供 "即插即用" 的端侧 AI 能力,撑持 7B/8B 模子推理超 25tokens/s。 力擎LQ50 Duo M.2 卡集成双 M50 芯片,320TOPS 的算力,冲破 14B/32B 年夜模子端侧部署瓶颈。 力谋LM5050 加快卡与力谋LM5070 加快卡别离集成 2 颗、4 颗 M50 芯片,为单机和超年夜模子推理提供高密度算力,最高达 640TOPS。 BX50 计较盒子则以紧凑机身适配边沿场景,撑持 32 路视频阐发与当地年夜模子运行。 今朝后摩智能比力注重三个范畴,一是平板及电脑这类消费终端类,这是年夜模子出产力东西,对于AI机能有刚需。二是智能语音体系,年夜模子语音集会也是重点结构的一个方面。三是运营商的边沿计较,看中了5G+AI是一个趋向。 “今朝这几个方面都有初期客户,消费终端、智能办公、智能工业咱们重点结构的范畴。”吴强说,“咱们精神有限,先把这三个范畴做好,将来只要对于年夜模子有需要,对于功耗敏感,都是会慢慢拓展的客户。” 于世界人工智能年夜会(WAIC)后摩的展台上,后摩也展示了单颗漫界M50芯片运行端侧年夜模子的运用,好比基在Qwen3-14b模子的Chatbot常识问答;还有有基在Qwen-8b模子的集会记要,撑持2K摆布的上下文,一小时的集会,今朝五六分钟可以天生集会记要;还有有专门为信创市场提供办事的公函写作,采用纯国产芯片及操作体系,运行Qwen2.5-7b模子,速率十分抱负。 今朝,遐想的下一代AI PC,科年夜讯飞的讯飞听见下一代智能语音装备,以和中国挪动的新一代5G+AI边沿计较盒子,都是后摩智能的意向客户。 吴强告诉雷峰网,今朝后摩及算法互助伙伴以和OS都有互助,后摩的计谋是每一个范畴与头部客户直接对于接,腰部以和长尾客户用编译器东西链降低客户开发的难度。 接下来,后摩将研发下一代DRAM-PIM 技能,经由过程将计较单位直接嵌入 DRAM 阵列,使计较与存储的协同越发慎密高效,这一技能将冲破 1TB/s 片内带宽,能效较现有程度再晋升三倍,鞭策百亿参数年夜模子于终端装备实现普和,让更强盛的 AI 算力可以或许融入 PC、平板等一样平常装备。 从最初的孤傲求证,到如今的年夜模子端侧芯片量产,后摩智能让存算一体再也不只是学术观点,而成为国产AI芯片攻入新场景的“潜航器”。 雷峰网原创文章,未经授权禁止转载。详情见转载须知。












