
这款芯片是采用台积电3nm工艺制造,单封装功耗300瓦。
AI芯片初创企业Tensordyne已完成其数据中心理芯片流片。该公司表示,相较于主流GPU竞品,这款芯片的能将提升个数量。企业称,在相同负载下,基于自芯片搭建的系统,每瓦每秒Token处理量是搭载Nvidia GB300系统的17倍;单机架每秒Token吞吐量可达后者13倍。
Tensordyne联创始人、AI总裁Gilles Backhus表示,数据中心AI理市场面临两大核心难题:理速度与部署成本。“所有人都想要速AI,同时也需要低成本AI。”Backhus提到,市场对Cerebras、Groq产品的追捧足以说明,行业愿意为快的Token处理能力支付溢价,“这是项具挑战的难题,何况大模型的参数量还在持续膨胀。”
他表示,目前开源模型参数量已达万亿别,闭源模型是逼近10万亿参数。“当下,吞吐、低成本的Token处理能力比以往任何时候都为关键。”他说道,“否则大量商业模式与应用场景都法落地。我们相信,我们出的这套技术体系,是业内个可同时解决速度、成本两大痛点的案。”
Tensordyne这款芯片搭载144GB HBM3e速内存海西泡沫板橡塑板专用胶。
系统能参数
Tensordyne这款芯片是适配其对数运架构的用硬件加速器,采用台积电3nm工艺制造,单封装功耗300瓦;芯片稠密FP8力达2.1千万亿次浮点运(PFLOPS),配套144GB HBM3e内存。
该服务器以对数发明者John Napier命名,这套72片芯片组成的Napier服务器采用风冷设计,整机功耗30千瓦,仅占用四分之机架空间。整机搭载10TB带宽内存,足以完整存放FP4精度下的10万亿参数大模型。Backhus称,该产品对标满机架搭载Nvidia Blackwell架构的系统;选择单域72颗芯片的设计,是为了降低客户从NVL72架构基础设施迁移的门槛。
由4台Napier服务器(计288颗芯片)组成的风冷整机柜,稠密FP8总力608PFLOPS,片上静态内存74GB,总HBM内存42TB,整机功耗120千瓦。
Tensordyne的核心优势源自底层数学架构:企业自研套名为Pareto的数值体系,基于对数数值系统(LNS)开发。对数数值系统并非新技术,但此前始终没有对应的用硬件加速案。Tensordyne的核心知识产权,是其面向对数域加法运的自研近似法,以及配套硬件实现案。
“我们已经在市面上几乎所有主流大模型上完成验证。”Backhus表示海西泡沫板橡塑板专用胶,“这套案不需要客户重新训练模型、或是额外做校准适配。我们清楚,让客户额外做这些操作会带来的使用门槛,因此我们规避了这要求。”
Tensordyne配套软件栈会自动完成全部数值格式转换,对终端用户透明;若客户有底层开发需求,也可开放自研Python底层语言接口。Backhus介绍,大规模云厂商普遍采用PyTorch搭建层模型定义,搭配Triton做底层子开发;企业自研AI智能体可自动完成GPU用代码的迁移转换。
“只要给智能体提供少量示例、清晰的知识库或文档供其学习,它就能完成任意框架之间的代码迁移适配。”他说,“这套案在稠密大模型、混模型(MoE),几乎所有类型模型上都表现出。”
Tensordyne硬件可实时动态执行微缩放与动态量化运,逻辑上与Nvidia的Transformer Engine有相似之处。
依托这套对数数值体系,芯片计单元占用的硅片面积大幅缩减,因此片上静态内存(SRAM)容量达到当前主流GPU的5倍,单芯片256MB。这意味着大量运可在片内完成,万能胶生产厂家需反复读写HBM内存,直接带来能提升。节省下来的硅片面积还可用于均衡分配加速计单元、片上SRAM与嵌入式CPU资源;片上CPU门负责混模型路由调度、解码循环等任务。Backhus补充,这款加速器采用48核架构,原生针对Transformer模型优化,同时也能兼容传统力负载。
Tensordyne四分之机架规格的Napier服务器内含8个计托盘海西泡沫板橡塑板专用胶,每个托盘搭载9颗芯片。
单元式片上网络(NoC)
Tensordyne拥有利单元式片上网络架构,能够降低长尾延迟,在多芯片并行力调度场景下优势尤为突出。Tensordyne联创始人、席产品官RKAnand表示,这是实现速解码理的核心支撑之。“混模型的数据特征和互联网流量类似,存在大量突发、散的小包数据。”他解释道,“这套低延迟单元式互联架构拥塞控制能力强。得益于此,我们需采用多厂商硬件分离式部署案,整套力可统在单芯片、单系统内完成调度。”
Tensordyne芯片间单跳互联延迟低于1微秒。Anand称,当下市面上各类硬件分离式案虽能定程度提升Token吞吐,但缺少用互联网络设计,存在明显短板;同时跨异构开发环境拆分力负载,还会带来运维层面的各类难题。
“从可靠角度来看,系统内设备数量、机架数量与整体有可靠呈负相关。”他表示。
Anand介绍,Tensordyne整套系统对全球大模型的预填充、解码两大阶段理都具备强适配能力。以2万亿参数混模型为例,常规部署案可将机架内4台72芯片服务器中的1台用于预填充,剩余3台承担解码任务,单用户每秒Token输出可达1300枚。企业测数据显示,该场景下Tensordyne每百万Token成本约11美元,相比下代多架构硬件分离案低个数量。
Tensordyne与HPE、Juniper作开发整机横向扩展互联与机箱硬件。服务器内部芯片通过搭载网络交换芯片的垂直印刷电路板互联,摒弃线缆设计,大幅提升系统可靠,Backhus补充道。
每个计托盘配备2条200Gbps以太网链路,对接上层数据中心网络;单托盘搭载NVMe固态硬盘,可存储8TB频上下文数据或KV缓存。
Backhus表示,Napier服务器还可在同横向扩展域内并行运行多套模型,支撑AI智能体类力负载(同扩展域内芯片可通过RDMA实现速互通)。
“如今在套智能体力栈内,多模型协同通信成为可能。”他说,“这能大幅降低长尾延迟、提升智能体运行速度,多用户、多任务、多模型可同时部署在单台Napier服务器上并发运行。”
该系列系统预计2027年二季度启动交付;配套开发云将于2026年底上线,供客户远程完成能测试调优。
值得注意的是,基于InferenceX公开基准数据,Tensordyne仿真测显示:其机架系统每兆瓦力可输出300万Token/秒,而搭载NVL72-GB300的机架仅18.3万Token/秒;单台Tensordyne整机柜吞吐量36.3万Token/秒,NVL72-GB300机架为2.74万Token/秒。该测试基于DeepSeek-R1-670B模型,统采用FP4精度、交互场景(单用户210Token/秒)条件测。
*声明:本文系原作者创作。文章内容系其个人观点,我转载仅为分享与讨论,不代表我赞成或认同,如有异议,请联系后台。
想要获取半体产业的前沿洞见、技术速递、趋势解析,关注我们!相关词条:铝皮保温施工 隔热条设备 钢绞线 玻璃棉卷毡 保温护角专用胶
奥力斯 保温护角专用胶批发 联系人:王经理 手机:13903175735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。




