Sambanova:前瞻性芯片工匠,LLM Serving,软硬结合的抢滩企业“by NCL”

日期:2023-10-17 14:10:39 / 人气:91


将LLM的能力与业务场景相结合,利用LLM将企业积累的结构化数据转化为商业价值,是市场对LLM保持兴奋的重要原因。今年2月OpenAI推出Foundry时,一度被外界解读为OpenAI将在企业市场发力的信号。但由于侧重于模型能力的提升、多模态、计算资源有限等主客观因素,OpenAI在企业市场的动作并没有预想的那么激进,其他闭源模型公司也有类似的特点。同时,过去半年开源模型社区的繁荣成为企业级模型服务的新动力,AWS和HuggingFace的结盟就是一种代表。
桑巴诺娃是这一领域独一无二的选手。它萌芽于创新的芯片架构,由三位芯片和AI/ML领域的业界传奇共同创立。他们在芯片和AI/ML技术路径上的远见卓识,让桑巴诺娃在2020年GPT-3一发布就决定押宝GPT技术路径,成功研发出创新架构的芯片产品RDA。RDA可以根据不同的AI/ML任务动态地重新配置硬件资源和数据流,大大提高了硬件的通用性,从而适应AI/ML领域的快速发展。今年9月发布的SN40L针对大模型进一步优化,有望成为服务LLM(连续预训练、微调和推理)最具性价比的设备。
但作为初创团队,几乎不可能直接与英伟达或AMD争夺科技巨头的计算资源预算。因此,基于RDA芯片,Sambanova也推出了自己的软件服务,为非科技企业客户提供模型咨询和微调,进而打造一套软硬件产品。Sambanova CEO也表示,这款软硬件一体化产品Sambanova Suite的目标用户是全球2000强企业。
以下是本文目录,建议结合要点阅读。
01核心判断
02行业背景
03产品
04队
05发展战略
06争议和挑战
07融资历史
01.
核心判断
企业级应用是LLM的重要场景。就像企业开始使用SaaS软件和云一样,围绕企业LLM的需求可以诞生一批重要的公司。但头部模型公司在企业级市场尚未形成垄断优势,企业应用LLM的需求分层为创业团队提供了机会。以头部模型公司OpenAI为例。由于顶级机型的竞争加剧,以及OpenAI对微软产品线的深度整合计划,我们认为OpenAI暂时没有多余的计算资源投入企业级产品线,这恰好是Sambanova等团队的窗口期机会。此外,虽然开源机型(如LLMA-2和猎鹰-180B)与顶级的闭源机型存在差异,但都可以满足企业的业务需求,企业用户在机型选择偏好上也不迷恋闭源机型,这也让Sambanova可以专注于LLM服务。
Sambanova的三位创始人都是芯片和AI/ML领域的传奇人物,他们在软硬件技术的道路上有很强的前瞻性成功:CEO Rodrigo Liang曾是Sun Microsystems芯片部门的高级负责人,其中一位创始人Kunle Olukotun是多核处理器的创始人。另一位创始人是克里斯托弗·雷(Christopher Ré),他是活跃在各大ML/AI/LLM社区的意见领袖,也是一位持续成功的企业家。Sambanova公司承接了太阳微系统公司芯片部门的大量员工。虽然是创业团队,但从上到下已经具备了足够的芯片开发经验和供应链管理能力。近两年来,团队还围绕大模型的技术路线和相应产品线培养了数十名LLM模型工程师,在整备环节的服务部署上构建了先发优势。最近,该团队也开始从GCP和AWS引入关键的云计算高管,希望降低客户的使用门槛。
2020年,公司预见到GPT等超大型机型的爆发,因此提前布局,成为LLM创业公司中第一个拿出全套自研软硬件解决方案的团队。2020年,团队在第一代芯片设计上预见性地向GPT倾斜,开始走超大内存路线。同年开始组建LLM培训专家组,并于2021年11月研发出第一套完整的解决方案。今年9月发布的SN40L已经为MoE模型做好了万亿参数的准备,有望成为提供LLM服务链接(微调和推理)性价比最高的服务器。在开源模式不被top模式甩在后面的前提下,公司在服务大中型传统企业的综合能力上,比很多竞争对手积累了1-2年的先发优势。
无论是芯片还是软硬件解决方案都得到了客户和市场的认可:公司硬件的主要客户是三家知名的国家实验室,分别是劳伦斯利弗莫尔国家实验室(美国)、阿贡国家实验室(美国)和理研中心(日本)。在软硬件一体化的产品线上,公司已成功进入非科技大型企业市场,包括OTP银行和埃森哲,埃森哲将帮助公司接触到更多传统企业。首席执行官Rodrigo Liang认为,Sambanova的长期目标是服务于全球2000强的大型企业。
公司要面对的竞争是开源和闭源模型的能力格局,服务环节的众多竞争对手,GPU计算能力不足缓解后OpenAI等头部模型玩家在LLM服务上的投入。一旦闭源模式对开源模式有了碾压性优势,相当一部分企业客户会因为模式能力被虹吸到头部模式,LLM企业级服务的市场格局也会随之改变,单纯依靠开源模式会非常被动。上菜,一个开源的模式,是一个高度竞争和同质化的赛道。除了AWS和Huggingface,Databricks和MosaicML,还有OctoML等很多初创公司。激烈的竞争将意味着市场和利润空间将面临严峻的挑战。一旦OpenAI获得足够的GPU计算能力,并与微软的企业客户渠道合作,Sambanova的市场空间将会明显收缩;Sambanova的on-prem服务实施对技术支持团队的门槛很高,这将在公司进入业务扩张期时带来人才供给挑战。
02.
行业背景
OpenAI对GPT模型的持续迭代优化(包括缩放、指令调谐和RLHF)赋予了它许多卓越的能力,这使得它在几乎所有传统的自然语言处理(NLP)任务中都表现出色。随着去年年底LLM时代的正式开启,以及未来多模态(包括图片和视频信息)的加入,能够理解结构化和非结构化数据的LLM将可能取代很多软件工具,越来越多的企业开始尝试引入LLM,挖掘更多的数据商业价值。
但客观来说,对于绝大多数企业客户来说,现阶段以GPT为代表的大模式在企业市场上仍有很多未被满足的痛点。要真正与企业业务耦合,创造价值,需要考虑以下几个方面。目前OpenAI等头部模型公司更侧重于模型能力的提升,无论模型能力竞争激烈还是计算资源有限,都无法在短时间内投入开发精力去解决。
软硬件结合难度大:大模型的服务器集群和训练过程是一个耗时耗力的系统工程,非技术公司很难独立搭建和运营迭代。即使是像Anthropic这样拥有业内顶尖专家的团队,前期也要花半年以上的时间来搭建软硬件基础设施,更不用说传统企业内部的IT部门了。保守预测,整个过程可能需要两年多时间。对于金融、零售、医药等大型非技术型企业来说,让他们从硬件底层搭建一个LLM,显然会导致高昂的探索成本,这也是历史上这类企业在技术要求上一般喜欢找技术咨询公司的原因。随着模型和数据集的增加,模型的复杂度也在增加,这将进一步增加模型调整和训练的难度。
共享模式很难保证数据隐私:ChatGPT目前是大家共享的,这也导致了很多严重的隐私问题。比如三星员工将公司源代码和会议纪要放入Prompt后,这些信息就会被OpenAI合法获取。此外,ChatGPT的聊天历史数据库在3月份也出现了权限混乱的Bug,很多用户可以看到其他用户的历史聊天记录。考虑到隐私,很多传统巨头(摩根大通、高盛、三星等。)严格禁止员工在工作中使用ChatGPT,但他们会需要大语言模型提供的效率提升。如何在保证隐私的情况下,将商业与大模式结合起来,已经成为普遍需求。
企业个性化需求满足:从长远来看,给大模特赋予个性将是ToB模特公司最重要的职能之一。本质上,企业需要让模型更好地理解自己的业务。除了不同行业之间的差异,即使是同一个领域,不同企业在业务特点、客户构成等细节上也有差异。例如,PLG战略和大客户战略对应的营销内容风格完全不同。比如Adobe CTO创立的Typeface,主张为每一个企业客户提供个性化的模型,不仅可以倾向于采用用户喜欢的色系和产品图片,还可以根据用户的历史文案基调生成更加个性化的文案。企业的个性化需求也决定了GPT等闭源模式在现阶段还不能和业务结合的特别彻底。
对信息时效性的自控:目前GPT3.5和GPT4的数据只有截至9月21日。显然,目前的通用模型无法高频更新信息。但是当涉及到企业的实际业务时,许多信息需求是时间敏感的,尤其是在金融和技术行业。但企业自主掌握模型后,可以反馈公司最新的研究报告等信息。
模型可审计性和所有权的定义:可审计性是指可以看到模型的权重和训练数据集。因为企业客户希望避免侵权和偏见,对模型可审计性有需求,但显然这些都是OpenAI的商业机密,几乎不会与客户分享。所有权是为了保证学习内部数据后的模型能够控制在企业自己的计算中心,不会被Azure等云计算厂商长期锁定,避免以后被收取天价费用。所有权也在一定程度上影响投资者对公司技术壁垒的预期。例如,在Salesforce使用过去积累的数据来训练自研模型后,其对OpenAI依赖的减少显著提高了其市场地位。
除了闭源模型本身的特性与企业实际需求的摩擦,以GPU为中心的计算单元本身的设计也给LLM的应用带来了挑战,比如内存带宽不足、可扩展性有限、性价比低、软硬件迭代周期矛盾等。而这些都是当时有着深厚芯片设计背景的Sambanova团队看到的机会。
具体来说:
1.内存迭代与计算能力升级的不平衡带来了计算能力的浪费:过去20年,内存读写带宽的增加是计算性能增加的1/3000,导致GPT或推荐系统的计算能力利用率低。如下图所示,内存读写带宽20年增长了30倍,但计算能力性能同期增长了9万倍。这使得GPU中的计算单元经常需要等待内存来获取所需的数据。比如一个博主用单个A100训练GPT-2,没有进行内存优化,由于内存读取效率的原因,计算能力利用效率只有35.7%。
内存读写带宽20年提升了30倍,但同期计算能力性能提升了9万倍。
2.连续读写数据导致的计算能力利用率低:计算效率低的另一个原因是传统冯诺依曼架构中的缺陷,计算单元和存储单元之间的数据读写频率过高,进一步恶化了读写带宽低的情况。在传统的冯诺依曼架构下(如下左图所示),数据要在计算单元和存储单元之间不断读写。比如在计算矩阵乘法时,计算单元通常会将矩阵分割成更小的部分再进行分割(如下右所示),由此可以推断过程中重复读写的频率极高。这在内存带宽严重不足的背景下,进一步恶化了计算单元的利用率。
3.高读写速率的HBM方案受限于制造和安装的复杂程度,扩展能力较弱。并没有解决内存与计算资源的不匹配问题:虽然HBM相对于DDR内存具有高带宽、低能耗的优势,但却失去了替换的灵活性。在HBM的设计下,存储器需要通过硅内插器(一种特殊材料)与计算芯片连接,这基本上意味着HBM存储器的配置直接由制造工艺决定,后期不能灵活更换。缺乏灵活性导致芯片厂商提前预测市场需求,而模型的高频迭代和多模态函数的加入使得预测几乎不可能,必然导致内存和计算资源的不匹配。例如,AMD最新的MI300X在之前发布的MI300A中增加了内存容量,优化的计算内存比例使得该产品在LLM市场上比Nvidia的H100更具性价比。此外,不匹配的另一个原因是HBM的制造和安装有更复杂的技术要求,导致HBM的可扩展性远不如DDR。目前GPU可配置的HBM最大内存容量为192 GB,但如果使用DDR内存,很容易达到TB级别的容量。但是在这个成本下,内存密集型的算法(比如GPT和推荐系统)运行起来会非常慢,因为DDR内存的带宽通常只有HBM的1/10左右。
4.LLM参数的骤增使得GPU集群的TCO(总拥有成本)极高:虽然在MoE/LoRA/Quantization等技术的应用下,训练模型的成本已经明显下降,但是数万亿参数的LLM仍然需要巨大的内存空间。例如,1.8 TB GPT-4的爆炸(来自半分析)使用128个A100簇进行推理。(按1美元/小时/A100计算,这是市场上最便宜的长期预定价格),每年需要企业支付1121万美元。更有甚者,企业如果需要定期的微调甚至是持续的前期训练模型,需要上千个A100模型,一年的支出就要上亿。换句话说,HBM带来的性能提升是以非常高的TCO(总拥有成本)为代价的,LLM参数的突然增加使得这个问题迅速出现并恶化。
5.软硬件迭代周期的矛盾使得专用ASIC芯片方案失效:在LLM和扩散模型的大浪淘沙下,微软等科技巨头选择专用ASIC芯片作为对应方案。ASIC的优势在于它在特定任务上的高效率和低能耗。但其漫长的设计制造周期,很难跟上AI算法的更新速度。比如,即使是NVIDIA这样的垄断巨头,也只能维持芯片两年一次的迭代周期,但这在日新月异的AIGC算法面前显然是不够的。MoE、多模等新技术的加入,将使按照ChatGPT设计的ASIC难以满足。
基于LLM在软件和硬件方面面临的上述问题,Sambanova于2020年开始专注于LLM,并于2021年9月推出了全套产品。
03.
产品
SambaNova的核心产品,其创新架构芯片,诞生于团队对GPT和big model的押注,但经验丰富的团队从一开始就意识到,找到正确的技术路线和持久的计算场景,是芯片公司在激烈的市场竞争中立于不败之地的关键因素。根据om dia Market Radar:Top AI Hardware Startups的报告,自2018年以来,风险投资已向25家芯片公司投资60亿美元,但仍活跃在市场上的公司不到5家。即使是行业巨头,英特尔的地位也因为过去十年对技术路线和目标市场的误判而逐渐下滑。
目前,SambaNova的产品是软硬件结合的全栈解决方案,Sambanova GPT套件,可以为非科技公司在其业务场景中集成包括GPT在内的LLM服务。在发布最新一代芯片SN40时,CEO Rodrigo Liang表示,Sambanova的目标是服务于全球2000强企业。
五金器具
可重构数据流单元(RDU)
RDU是SambaNova在2020年推出的芯片产品,可以为各种AI/ML算法提供通用加速。其核心创新在于使用了极其灵活的可重构数据流架构,可以根据不同的AI/ML任务动态地重新配置硬件资源和数据流,从而允许开发者根据需求自由编写编译器,大大提高了硬件的通用性,从而适应AI/ML领域的快速发展。
2020年,GPT-3系列的发布Sambanova专注于GPT技术路线的软硬件优化,不仅为其设计了数据流以加速训练和推理,还在今年9月发布了第四代产品SN40L,L代表针对大型模型的优化:SN40L的设计引入了三级内存的设计。内存高达1.5 T,可支持256000个token的序列长度,SN40L有望成为服务LLM(连续预训练、微调和推理)最具性价比的设备。
SambaNova RDU的芯片结构相当复杂(如下图),命名为可重构数据流加速器,其组件包括:
模式计算单元(PCU):计算单元;
模式存储单元(PMU):由SRAM制成的存储单元;
交换机:负责高效连接PCU和PMU;
地址发生器单元(agu)和合并单元(CU):它们共同负责连接计算机的其他部分,如DRAM存储器、硬盘或片外网卡。
RDU的核心创新是引入了可重构数据流的概念,允许用户根据不同的AI算法定制自己的数据流。通过下面两个例子,我们可以感受到可重构数据流的高效性和通用性:
简单卷积神经网络(CNN,常用于计算机视觉场景):下图是Sambanova的工程师为一个简单的CNN设计数据流。可以看出,芯片从DDR内存中读取一次样本,就可以在芯片上完成一个完整的计算过程,避免了多次读写DDR。对于这么小的CNN来说,芯片上不同的计算单元也可以同时处理不同的样本,就像工厂里的流水线一样。
GPT解码器中的前馈神经网络:Sambanova工程师参考GPT-3 13B的参数设置重新训练了一个GPT。根据GPT的结构设计了相应的流水线后,在RDU上的训练速度比在A100上快了4.5倍。
(具体论文参考:利用稀疏性和数据流高效训练大型语言模型)
下图显示了传统架构和数据流架构在处理GPT解码器的前馈神经网络时的区别,其中蓝框表示存储在SRAM上。两者最大的区别是HBM/DDR内存的读取次数,合理使用数据流会有效减少内存读写的浪费。
除了数据流,最新一代芯片RDU SN40L的设计还增加了520MB SRAM (300 TB/s)、64GB HBM3 (3 TB/s)、1.5 TB DDR5 (0.3 TB/s)三级内存方案。基于这种设计,我们估计Sambanova可以将计算集群的总拥有成本(TCO)降低到GPU的1/25(下面会详细分析),也让RDU有机会成为服务(包括微调和影响)LLM中性价比最高的服务器。
三级存储器方案指的是:
520 MB SRAM (300TB/s):分布在芯片周围的PMU采用高性能且价格昂贵的SRAM,单个SN40L RDU包含640 MB SRAM,可以提供300TB/s的总带宽..相比之下,单芯片H100上的SRAM为50MB,因此我们推测其总带宽不应超过50tB/s..
64 GB HBM3 (3 TB/s): SN40L将RDU和HBM3内存封装在一起,使得内存速率可以接近H100,解决了上一代芯片的软肋。
1.5 TB DDR 5 (0.3 TB/s): Sambanova一直要求团队根据对LLM车型市场的预测,将RDU的最大内存容量推向极限。CTO Kunle早在2019年就预言未来的型号会变得极其庞大,所以在第一代芯片推出的时候,Kunle就强烈要求工程团队支持1.5TB DDR。
相比之下,在Coreweave HGX H100服务器中,8个H100服务器通常共享1-2TB的DDR5内存,总带宽为300 GB/s,这意味着每个H100平均拥有256 GB的DDR5内存和每秒37.5 GB/s的带宽,这远远小于单个RDU可以读取的内存容量和带宽。
以下是RDU和英伟达数据中心芯片的部分指标对比:
注:RDU SN30基本是由两个sn20用TSMC技术拼接而成,类似苹果M1和M1 Pro。
数据流和三级内存的设计组合能够缓解我们之前提到的当前以GPU为中心的问题:
1.数据流和三级内存的深度优化将使计算单元等待时间更短。计算能力效率低的主要原因是计算单元要等待本地内存和远程内存的读写。三级内存的引入,让用户可以根据内容的常用程度依次分布在SRAM、HBM和DDR上,既避免了不必要的读写操作,又减少了DDR大容量带来的读写远距离内存的需求。Dataflow允许用户在流程的下一步中直接使用计算结果。但在传统架构下,计算结果通常被写回内存,需要在下一步再次读取,造成资源的严重浪费。
2.SRAM容量远超行业平均水平,降低了读写数据的频率。RDU有520MB的SRAM,远远超过H100的50MB。更大的SRAM可以节省从HBM/DDR读写的次数,从而减少开始读写时的总延迟。
3.DDR和HBM的混合既保证了性能,又保留了一定的可扩展性。在SN40L之前,Sambanova不得不以牺牲内存性能为代价,使用大容量DDR来保证RDU服务器能够容纳近万亿参数的LLM。在SN40L的设计中,将HBM放在SRAM和DDR之间作为性能缓冲,显然会缓解这个问题。
4.RDU针对DDR的优化可以将计算集群的TCO(总拥有成本)降低几个数量级。因为单个RDU可以支持1.5TB的DDR,这也意味着由8个rdu组成的服务器可以放下12 TB的参数,对应的LLM大约有5万亿个参数。如果换成A100,就需要150个A100 80G,也就是20台左右的服务器。考虑到浪费的互连系统和CPU设施,Sambanova估计成本可以降到GPU的1/25。大内存的设计也可以有效避免芯片间通信的研发成本和难度。因为基本解决了存储单元之间的不匹配,所以RDU服务器基本不需要数百个rdu之间的通信。但RDU仍然可以支持RMDA over Ethernet/Infiniband的通信协议,最高支持400 GB/s,据我们了解,RDU已经验证支持千卡规模的计算集群,所以在互联互通方面基本追平了行业平均水平。
5.数据流和三级存储方案允许用户优化场景的深度。上面我们提到了,硬件的迭代周期长,迭代成本高,市场上大多数ASIC公司很难跟上软件算法的高频迭代。由于RDU支持数据流和最新一代的三级内存方案,在硬件调度上给予编译器很大的自由度,可以根据各种AI/ML算法灵活定制优化方案。对于用户来说,数据流的设计可以让编译器指导RDU适配最新的算法,用户可以将硬件R&D预算完全转移给编译器的开发团队,从而缓解软硬件迭代周期的矛盾。对于SambaNova来说,可以在多个AI/ML场景中拉平RDU的硬件R&D成本,然后通过为多个客户开发编译器赚取长期服务费。
这种创新的架构将大大加速一些CV/NLP算法在科研机构的实践,所以RDU最早的客户由国家实验室和国家科研机构组成。我们稍后将扩展这些客户和用例。
软件
SambaNovaGPT
芯片行业仅靠技术创新是远远不够的,需要辅以合理的GTM策略。对于SambaNova来说,团队在2022年推出的SambaNova GPTSuite是为了让RDU有机会从科研机构走向更大的企业级市场,从而触及传统企业的IT预算,成为企业级LLM的重要基础设施。
首先,应该强调的是,GPT对桑巴诺娃来说是一个历史机遇。对于SambanNova本身来说,从2020年开始,开发团队专注于GPT的单一算法,持续积累技术和产品上的优势。从外部机会来看,GPT的力量不仅可以侵蚀传统的NLP场景,还可以满足过去无法实现的长尾需求。
SambaNova在2020年3月用100B参数训练了一个model ONE。虽然当时还没有收敛到GPT的技术路线,但还是正确的选择了大参数和语言生成的路线。在看到GPT 3号的惊人表现后,团队决定转向GPT路线。
SambaNova在2020年3月用100B参数训练了一个model ONE。
2021年11月,SambaNova为匈牙利OTP银行开发了完整的软硬件解决方案SambaNovaGPT,为匈牙利人定制的13B参数LLM。这种模式的客户是OTP银行和匈牙利科技部。OTP将使用它来辅助移动银行应用程序的运行,而科技部则鼓励匈牙利其他大学和中小企业使用这一创新技术。
我们推测OTP银行的模型只有13B主要有两个原因:
匈牙利语的语料库比英语小很多,所以小参数的模型就足够充分训练了;
客户的需求是相对固定的,只需要用一些精心定制的实例来微调模型,就能达到很好的效果;
受OTP银行合作的启发,SambaNova于2022年3月推出了面向企业和政府客户的SambaNovaGPT套件,这是一款集软硬件于一体的企业级大型模型解决方案,也是SambaNova目前的主打产品。首先,团队会帮助客户选择最合适的型号,然后硬件团队会根据型号、训练数据和访问次数来决定服务器有多大。然后模型团队会结合企业客户的需求在服务器上训练模型,然后把设备安装到客户的机房里。除了On-prem,为了降低用户的访问门槛,我们预计该公司将推出云服务平台,我们将在稍后推出。目前Sambanova Suite的服务模式是On-prem。我们预计,为了降低用户的门槛,公司会推出云服务平台,我们稍后会启动。
在机型选择上,Sambanova可以支持各种闭源和开源机型,包括GPT、克劳德、骆马等。Sambanova也推出了自己的车型(SN GPT和BLOOMChat)。在实际操作中,Sambanova的LLM工程师团队会结合企业的需求和喜好进行最终的型号选择。
模型选定后,企业数据会用到微调模型中(如下图),这样可以个性化模型,提高生成精度。
还有一些客户会要求开发一些比较好用的软件。比如下图是公司做的用PDF内容回答问题的Demo(如下图)。
结合公司的一些产品,Demo,可以看到它主要宣传的是13B的型号大小,同时也支持自动语音识别的型号,可以用在客服场景中。例如,该公司正在帮助客户解决以下业务场景:
在客服人员的通话中给予一些选项和口头指导,从客户对话中挖掘信息;
帮助企业处理大量文本数据,从海量文档中提取有价值的信息,提高工作效率。
此外,由于NLP的技术路线现在已经收敛到GPT,SambaNova团队可以集中精力开发GPT。其中包括:
硬件:最新一代的RDU SN40L采用了三级内存方案,否则在训练大型模型时需要额外的片间互联技术。
组件:团队中的文卡特·斯里尼瓦桑(Venkat Srinivasan)为GPT 13B大小的模型定制了数据流,从而实现了4.5倍的A100的训练效率
LLM算法:团队先后开发了SN GPT(13B)、BLOOMChat(176B)等模型,是LLM开源社区的重要力量。
其中,BloomChat是公司对Bloom的对话风格的指令进行微调后得到的多语言对话模型,具有良好的性能和社区语音。在约50名志愿者做出的数千个偏好选择(包括6种语言)中,BloomChat和GPT-4被选择的次数比例为45: 55(左下),与其他开源模型相比,用户偏好BloomChat结果的比例为66%(右下)。但是,社区中也有一些用户反馈模型在代码和安全性方面存在很大问题。代码能力可能是因为Bloom model本身的训练语料库中缺少代码组件或者质量不高,而安全性表明SambaNova团队在比对能力上距离一线OpenAI和Anthropic有一定差距。
简历和
推荐系统
在LLM之前,SambaNova也看好CV和推荐系统在企业中的应用。但由于需求和算法的碎片化,SambaNova很难在算法和产品上积累优势。所以公司只有少部分CV专家还在支持国家实验室的科研问题,在商业场景下很难找到客户。这里就不展开了。
04.

SambaNova的团队是我们关注这家公司的原因之一。在了解了几位核心创始人的背景后,就能更好的理解其产品理念和发展战略。SambaNova由三位业界传奇人物创立,拥有一位拥有深厚企业和政府人脉以及丰富经验的产品经理。早在2020年,该公司就开始建立一支专注于GPT相关工作的模型工程师团队。目前这个模特培训团队已经发展到二三十人的规模。为了适应传统企业向云计算转变的趋势,SambaNova最近从AWS和GCP引进了云计算领域的Infra和销售总监,因此我们推测Sambanova未来将会推出面向企业的大规模云服务。
罗德里戈·梁
-首席执行官兼联合创始人
Rodrigo Liang是一位经验丰富的芯片工程师,他还拥有丰富的企业IT系统专业知识和网络资源。梁在Afara Websystems担任工程副总裁,Afara web systems由现任Sambanova首席技术官Kunle Olukotun于2001年创立,梁是当时最优秀的工程师。2002年,他领导的Niagara架构芯片(用于web服务器)成功吸引了Sun Microsystems(之前Afara只有一个种子轮)3000万美元的收购要约,凭借优异的性能,Sun被允许砍掉自行开发的蜜蜂系列芯片。梁加入Sun后,成为Sun多线程芯片部门的副总裁。2010年,Sun被甲骨文收购后,梁加入芯片事业部任副总裁,推动甲骨文和IBM在企业服务器方面的硬件升级。
Sun Microsystems是IBM最大的竞争对手,也引领了JAVA语言的发展。其主营业务是销售芯片和服务器,辅以操作系统、数据库、开发语言等软件。2000年左右,太阳微系统公司的市值高达2000亿美元,但由于忽视市场销售和运营而逐渐下滑,最终在2009年被甲骨文以74亿美元收购。
梁的背景使得SambaNova的商业模式与大多数芯片创业公司不同:它不是直接销售芯片,而是向Oracle、Sun Microsystems和iIBM这样的企业销售软硬件集成解决方案。在Sun和Oracle的工作经历让梁知道,软硬件一体化对技术能力弱、数据安全要求高的传统企业(如制造业或金融业)有着明显的吸引力。再加上每年向传统巨头收取的技术服务费,我们认为这种商业模式将有助于SambaNova在竞争激烈的芯片行业长期生存,因为一个只有200人的小团队几乎不可能与英伟达或AMD争夺科技巨头的预算(如Meta内部的计算集群)。
昆勒·奥卢科通
-首席技术专家和联合创始人
Kunle Olukotun是多核芯片理论的创始人之一。摩尔定律在2006年之后并没有失效,正是因为CPU从追求单核中心性到追求多核协同工作。他仍然是斯坦福大学CS和EE的教授,每年可以指导四五篇关于不同ML场景下的ML Componenter优化和RDU应用的论文,以确保RDU能够在最前沿的科研工作中持续发现场景。
Olukotun是Afara WebSystems的创始人。他利用自己的前沿科研成果开发了多核多线程芯片,后来又为Sun Microsystem设计了UltraSPARC T1的芯片架构,远远领先于当时的全球Web服务服务器芯片,比最好的Intel芯片快7倍。
2008年,在辞去Sun的工作后,Olukotun回到斯坦福,并为下一步(Dawn)实验室组织和领导了普适并行实验室和数据分析。前者侧重于结合软件和硬件的并行计算。后者关注数据分析等早期AI/ML研究,也在这里认识了另一位联合创始人Christopher Ré。
克里斯托弗·雷
-联合创始人
Christopher Re在公司主要负责前沿的AI算法研究,为公司指明前沿的学术方向,同时也带来学术界和开源社区的合作。
雷是斯坦福人工智能实验室的助理教授。他不仅学术成就突出,还是一位成功的企业家。Ré随着2011年发布的Hogwild(一种流行的分布式梯度下降算法,约有2500次引用)逐渐出名。目前Ré继续在实验室指导AI/ML博士,每年负责30-50篇论文。其中估值10亿美元的浮潜创业团队是克里斯托弗·雷的学生。此外,Ré创办了数据挖掘公司Lattice,仅在天使轮后就被苹果以2亿美元收购。
Ré还是知名大型模型社区Hazy Research的意见领袖,指导Stanford AI/ML PHD积极运营Hazy Research,协助SambaNova获得学术界和开源社区的合作。除了学术研究,Ré还热衷于发表对AI的安全、社区、壁垒或竞争格局的看法,并在博士生的帮助下运营Hazy Research博客。此外,这个博客经常与知名的开源社区如拥抱脸和一起互动,最近还带来了和

作者:鼎点娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 鼎点娱乐 版权所有