Q:目前全球和国内GPU市场的景气度以及对年后两年的需求情况是怎样的?
A:全球和国内GPU市场需求持续增长,尤其是在中国市场。由于贸易摩擦的影响,无法购买某些高配英伟达芯片,但这将促使国内特色的大模型需求发展,例如国营企业与传统行业赋能,带动国产芯片(如寒武纪、华为等)的需求增长。同时,在贸易摩擦加剧的情况下,对国产GPU的需求也会增长;若关系缓和,则可能进口降配版英伟达芯片或其他进口芯片,市场需求也会随之增长。
Q:H20芯片的情况如何?如果其继续降配,国内用户是否会购买?
A:H20芯片如果继续降配,国内头部互联网公司和云服务民营企业大概率不会购买,因为成本提高且利润下降,无法满足他们追求性价比的需求。即使英伟达想通过降配版H20打开市场,但基于当前中国市场的实际需求和偏好,销量可能不会理想,英伟达对此应会慎重考虑。
Q:国产卡与英伟达GPU的竞争状况如何?
A:华为等公司在学习英伟达的模式,并在国产GPU上取得进展,比如华为昇腾910B和910C在算力上有所提升。然而,寒武纪虽然在单片机参数上有突破,但在组网和复杂计算场景下,由于机架内和机架间的数据传输等问题,其整体表现可能低于H20低配版。国产卡在某些方面虽有优势,但在整体竞争力上仍有一定差距。
Q:对于各大家族企业自研芯片的推广进度及竞争力有何看法?
A:各大家族企业正积极推进自研芯片的推广,但具体推广进度和竞争力有待进一步观察。这些企业是否主要聚焦于资源芯片以及其芯片的竞争力,将直接影响到国内包括互联网和应用型公司在内的一系列公司的发展。
Q:阿里自研芯片的方向有哪些?
A:阿里的自研芯片方向主要有两个,一是服务于阿里云的云服务,通过降低成本来优化CPU性能;二是平头哥系列芯片,主要用于硬件加速,特别是在IOT场景中,并且在与SSD相关的中间处理环节也有涉及。
Q:百度昆仑芯的发展状况和应用场景是什么?
A:百度昆仑芯已实现商业化推进,在大模型推理环节提供基于DPCV3和R1的服务。昆仑芯分P系列(推理系列)以及针对百度大模型优化的飞桨开发框架的系列,这些都可以用于传统行业与国企的合作中,实现自主可控,节约成本,同时也在广告、视频处理等领域与英伟达芯片形成互补或替代。
Q:国内企业在芯片研发上的主要方向是什么?
A:国内多家企业如阿里、京东等,在NPU、DPU以及其他加速卡方向上推进自然语言处理等能力,主要方向一是替代掉无需使用英伟达的场景,二是降低成本。
Q:腾讯和字节跳动在自研芯片上的应用和进展如何?
A:腾讯在视频解码和加速方向上使用了自研芯片,如沧海云霄系列,可以节约英伟达A系列和T系列芯片。字节(更多实时纪要加微信:aileesir)跳动则在视频压缩等方面推进自研芯片,并在火山引擎上使用了DPU、TPU等芯片进行神经网络训练等操作,同样能够节约英伟达芯片资源。同时,字节跳动还通过壳公司尝试与台积电达成合作,研发类H20算力的高性能芯片。
Q:目前互联网公司在使用国产芯片上的业务比例及未来变化是怎样的?
A:随着技术发展,推理和训练芯片的需求比例逐渐模糊,当前存在大量多模态推理场景下资源消耗与训练相当甚至更高的情况。未来,随着大模型技术进步,训练与推理资源消耗比例可能发生改变,公有云需求短期内还未显著增长,大部分需求仍由大公司自有业务消耗。
Q:在大模型项目落地时,像百度、腾讯和科大讯飞这样的公司会如何赋能项目,并且在市场结构方面是什么样的情况?
A:这些公司在大模型项目落地时,会利用大模型技术去赋能实际应用场景。国内市场中,coast(此处可能指代具体公司或项目)的数量级非常庞大,例如政务助手、社保公积金查询等窗口服务,完全替代人工后产生的推理需求也是一个天文数字。因此,国内的市场结构主要是由这些应用场景产生的真实推理需求构成。
Q:您如何看待英伟达计划推出的针对中国市场的基于新框架的Blackwall架构的新芯片,以及其可能的阉割版对采购量的影响?
A:英伟达可能会推出的B20芯片是降配版,而非H20,市场普遍预期国内公司会倾向于购买B20芯片。由于H20芯片无法满足国内市场需求,尤其是对于多模态推理和agent应用的需求,所以即使有阉割版,但考虑到B20芯片在物理结构上更优,更适合多模态和agent应用,国内商业应用公司很可能会考虑采购B系列B20系列芯片。
Q:为什么基于B系列的阉割版能满足禁令需求,而H系列则不满足?
A:物理结构上的差异是关键原因。H系列芯片在原有架构下难以进行过多改进,只能通过缩小显存和降低计算频率来降配,这会影响其在多模态推理任务上的表现。而B系列芯片的整体架构设计更适合多模态处理和集群协作,即使配置较低,单机内和集群内的性能损耗也较小,因此更适合国内做应用的公司。
Q:关于训练和推理过程中的算力消耗现状以及未来发展目标,例如token消耗和用户体量上的预期是什么样的?
A:目前,各大公司自推理模型的token消耗远高于普通模型,大约是普通模型的20倍左右。由于自推理过程中token消耗巨大,当前很难预估未来基于自推理模型的产能和token日消耗等目标,因为这个指标在当前环境下缺乏实际意义,就好比员工出工不出力,效率低下时对未来产量做预估无从谈起。
Q:目前社会面常见需求下的大模型使用情况如何?
A:参考火山引擎的数据,去年其单日调用次数约为44万亿次,其中字节跳动自身使用占比大约90%,剩余为社会面调用。随着多模态等应用的增多,预计未来几年大模型的真实有效token消耗将增长至60万亿次左右,而字节跳动的自用比例可能会降到80%左右,公有云服务占比约20%。
Q:关于目前互联网公司在购买GPU卡时采用租赁形式的资金趋势和市场供需情况如何?
A:租赁GPU卡的形式确实存在,但关于某些公司大规模租用IDC和算力的信息并不准确。实际上,像字节跳动这样的头部公司在自有机房数量上并不算多,而且集中分布在特定区域。他们确实需要租用机房来放置购买的芯片,但这并不代表市场上存在大量公司采取大规模租赁的方式获取GPU算力。
Q:在春节期间,字节跳动租用消费级GPU卡(如4090、5090)是出于什么原因?
A:春节期间,字节跳动租用消费级GPU卡主要是为了支持抖音平台承接春晚活动以及相关短视频的加速需求,确保用户在观看春晚和其他节目时获得更好的手机观看体验。此外,字节自身春节期间推出的语音聊天功能也涉及边缘计算和边缘加速的需求。
Q:对于高性能芯片市场,尤其是英伟达A系列芯片(包括A100、H100等)的租赁市场可能性如何?H100和H800这类高性能芯片是否存在租赁的可能性及存在的挑战是什么?
A:从2024年的情况来看,A系列芯片如H20的主要供应量被BBAT等大公司购买,基本没有流入个人或小型租赁方手中,并且由于中国实行专供政策,这些芯片完全通过官方渠道消耗,不存在灰色渠道。同时,A100和A800虽然应用广泛,但由于大模型技术快速发展,其使用场景相对较少,且市场上已购买的A100芯片量已超过国家官方进口总量的50%以上,这意味着像字节跳动这样的大公司在市场上租赁高性能芯片行不通。H100和H800芯片价格昂贵,通过灰色渠道溢价获取成本极高,可能达到单机架数万甚至上百万的价格,因此实际市场中此类芯片的量不大,且很难通过租赁满足需求。此外,从技术使用角度看,由于软硬件结合能力和迭代速度的问题,国产芯片在大规模预训练和推理任务中面临挑战,例如大规模训练时显卡需集中在一起,租赁零星或大规模GPU均存在困难。同时,企业在考虑数据安全和可靠性方面也会谨慎对待租用他人集群。
Q:国产芯片在发展过程中需要重点补足哪些方面?
A:国产芯片需要重点提升软硬件结合能力,目前除华为外其他公司尚未掌握此研发能力,导致在迁移需求上尽量减少使用英伟达芯片。其次,国产芯片在显存和传输能力上也存在明显不足,因为计算单元的性能无法充分发挥,需要在绝对容量和带宽方面进行升级。另外,国产芯片在更新迭代速度、产能以及针对大规模应用优化等方面也存在问题。
Q:华为与大公司对接时提到的问题是什么?
A:华为的910C芯片未来良品率可能会比较低,同时新出的国产芯片在产能分布上会更多地投入新产品,并且由于老款芯片产量下降,市场需求增加,导致抢购现象。
Q:国内的情况以及昆仑芯等公司的进度如何?
A:国内方面,软件如deep take已快速投入市场,硬件方面因贸易摩擦而呈现慌乱追赶状态,整体描述较为零散。昆仑芯方面,其支持的deep seek满血版推理效果优秀,集群版能达到每秒四千多的性能,单机版也能达到三四十的token执行效率。昆仑芯整体集群表现优于华为的910B芯片。
Q:对于昆仑芯与其他芯片公司的性能表现,您怎么看?
A:昆仑芯在集群测试中的表现优于华为910B,而寒武纪590系列芯片由于带宽传输瓶颈,在算力上与英伟达(更多实时纪要加微信:aileesir)A系列相比有较大差距,且耗电量较高。其他芯片公司如BBAT等,会进行少量采购和适配调试工作,但受限于资源和成本,测试频率不会很高。
Q:对于后续全球采购中国芯片的增长预期是怎样的?
A:采购中国芯片不会终止,尤其是对于大语言模型和大规模预训练需求的增长,尤其是阿里和百度等公司会有持续投入。在训练层面,多模态训练也会带来持续投入。不同公司如BBAT、腾讯、阿里、百度等,投入程度各异,但都不会放弃。其中,腾讯和字节跳动预计明年采购量会比今年增长,而百度和阿里可能接近或略低于今年水平,但需求依然存在。华为的芯片需求也会有所增长,尤其是推理类需求。社会面整体上,华为芯片可能会出现抢购情况,尤其是昇腾芯片。