DeepSeek-V3与DeepSeek-R1的核心差异
去年12月26日,DeepSeek AI正式发布了其最新的大型语言模型DeepSeek-V3。这款开源模型采用了高达6710亿参数的MoE架构,每秒能够处理60个token,比V2快了3倍。一经发布,就在 AI 领域引起了轩然大波。
时隔不足一个月,在今年1月20日,深度求索又正式发布推理大模型DeepSeek-R1。DeepSeek-R1的发布,再次震撼业界!
1月27日,DeepSeek应用登顶苹果中国区和美国区应用商店免费App下载排行榜。1月31日,英伟达、亚马逊和微软这三家美国科技巨头,在同一天宣布接入DeepSeek-R1。
关于DeepSeek-V3与DeepSeek-R1-Distill 蒸馏模型的区别:
DeepSeek-V3
DeepSeek-R1-Distill 蒸馏模型
来源:Gitee AI
近日,硅谷顶尖风险投资家、a16Z联合创始人Marc Andreessen发文引用SensorTower数据:目前DeepSeek日活用户数已经达到了ChatGPT的23%,并且应用每日下载量接近500万。
2月5日,京东云宣布正式上线DeepSeek-R1和DeepSeek-V3模型,支持公有云在线部署、专混私有化实例部署两种模式。前几日,阿里云、百度智能云、华为云、腾讯云、火山引擎、天翼云已接入了DeepSeek模型。海外的亚马逊AWS、微软Azure等云巨头同样官宣支持。
那么,DeepSeek究竟是以何种独特魅力,赢得了广大用户的青睐与喜爱呢?
DeepSeek的两大优势
市场热捧的产品,往往有个显著共性:能帮用户降本增效。这,同样是 DeepSeek 的优势所在。
首先在低成本与高效能方面,DeepSeek-V3的训练成本仅为557.6万美元(约为GPT-4的二十分之一),却能在逻辑推理、代码生成等任务中达到与GPT-4o、Claude-3.5-Sonnet相近的性能,甚至超越部分开源模型(如Llama-3.1-405B)。其技术核心在于算法优化(如MoE架构、动态学习率调度器)和数据效率提升,而非依赖算力堆叠。
作为对比,GPT-5一次为期6个月的训练仅计算成本就高达约5亿美元。
其次,开源与灵活部署也是DeepSeek的突出优势之一。DeepSeek选择将模型权重开源,并公开训练细节,这为全球的AI研究者打开了一扇通往模型内部的大门,让他们能够深入了解模型的训练过程、所采用的算法以及遇到的问题和解决方案。
360集团创始人周鸿祎指出,DeepSeek真正践行了开放的精神。与OpenAI等关闭模式平台相比,DeepSeek允许开发者利用其开源模型进行技术挖掘和创新,这是对技术共享理念的有力支持。OpenAI虽然以“开源”自居,但随着商业化的推进,越来越多地选择封闭式策略,这与其创立初衷背道而驰。
此外,周鸿祎特别提到DeepSeek的模型蒸馏技术,他认为这是一种极具前瞻性的实践。在他看来,DeepSeek对模型蒸馏的开放态度,展示了其自信与无私。相较之下,OpenAI对用户蒸馏其模型的限制,显示出其对竞争对手的排斥和对自身优势的维护。
DeepSeek所需的GPU,主要来源于英伟达
早期对AI技术和硬件基础设施的战略投资,为DeepSeek的成功奠定了基础。
据SemiAnalysis评估,DeepSeek拥有大约50,000个Hopper架构的GPU,其中包括10,000个H800和10,000个H100型号。此外,他们还订购了大量的H20型号GPU,这些GPU专为中国市场设计。尽管H800与H100具有相同的计算能力,但其网络带宽较低。H20是当前唯一对中国模型提供商可用的型号。这些GPU不仅用于DeepSeek,也服务于High-Flyer,地理上分散部署,支持交易、推理、训练和研究等多种任务。
至于DeepSeek如何获得如此多数量的Hopper GPU。
早在2021年High-Flyer就看好AI的发展潜力并果断投资购买了10,000个A100 GPU,用于大规模模型训练实验。这项战略决策后来被证明是非常成功的,为公司带来了显著的竞争优势。
在1月25日新年前,AMD就官宣将DeepSeek-V3模型集成到了Instinct MI300X GPU上。
随后在1月31日,AI芯片龙头英伟达也官宣其NVIDIA NIM微服务预览版对于DeepSeek-R1模型的支持。NIM微服务基于HGX H200系统,每秒能够处理3872个tokens。开发者们可以调用API进行测试和试验,该API后续会作为英伟达AI企业软件平台的一部分提供。
同日,英特尔宣布DeepSeek能够在搭载酷睿处理器的AI PC上离线使用。在酷睿Ultra 200H(Arrow Lake H)平台上,DeepSeek-R1-1.5B模型能够本地离线运行,做翻译、做会议纪要、进行文档撰写等任务。
要知道DeepSeek 在算力芯片受限的不利因素下,达到OpenAI等顶级模型的水平,是国内AI生态级的突破。如今,随着 DeepSeek 这类模型的发展,对 GPU 需求持续攀升。国产 GPU 厂商也敏锐捕捉到这一机遇,正在积极进行适配工作。他们深知,适配成功不仅能助力 DeepSeek 等模型更好地发展,也能为自身打开更广阔的市场空间,提升国产 GPU 在 AI 领域的影响力。
11大国产AI芯片公司,宣布适配DeepSeek
仅在2月1日至2月7日这短短7天内,就有11家国产AI芯片公司宣布完成对 DeepSeek 的适配 。
2月1日,华为云宣布与硅基流动联合首发并上线基于华为云昇腾云服务的DeepSeek R1/V3推理服务。得益于自研推理加速引擎加持,该服务支持部署的DeepSeek模型可获得持平全球高端GPU部署模型的效果。
2月5日,华为宣布,DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro于2月4日正式上线昇腾社区,支持一键获取DeepSeek系列模型,支持昇腾硬件平台上开箱即用,推理快速部署,带来更快、更高效、更便捷的AI开发和应用体验。
2月4日,摩尔线程发文称已快速实现对DeepSeek蒸馏模型推理服务的高效部署,旨在赋能更多开发者基于摩尔线程全功能GPU进行AI应用创新。
此外,用户也可以基于MTT S80和MTT S4000进行DeepSeek-R1蒸馏模型的推理部署。
通过DeepSeek提供的蒸馏模型,能够将大规模模型的能力迁移至更小、更高效的版本,在国产GPU上实现高性能推理。摩尔线程基于自研全功能GPU,通过开源与自研双引擎方案,快速实现了对DeepSeek蒸馏模型的推理服务部署,为用户和社区提供高质量服务。
2月4日晚间,海光信息宣布公司技术团队成功完成DeepSeek V3和R1模型与海光DCU(深度计算单元)的适配,并正式上线。
DeepSeek V3和R1模型采用了Multi-Head Latent Attention(MLA)、DeepSeekMoE、多令牌预测、FP8混合精度训练等创新技术,显著提升了模型的训练效率和推理性能。
DCU是海光信息推出的高性能GPGPU架构AI加速卡,致力于为行业客户提供自主可控的全精度通用AI加速计算解决方案。凭借卓越的算力性能和完备的软件生态,DCU已在科教、金融、医疗、政务、智算中心等多个领域实现规模化应用。
随着海光等专注于 GPU 研发的公司纷纷表示已完成对 DeepSeek V3 的适配。从这一现象来看,DeepSeek 模型在业界或许正逐渐获得较高的认可度与通用性。
那么,海光 DCU 的哪些硬件特性和架构设计使得它能够很好地支持 DeepSeek V3 和 R1 模型的高效运行?
有业内人士表示,海光DCU采用了GPGPU架构,从而保证在面对新型应用的时候具备极好的兼容性与适配性;同时DCU配套的软件栈也经过了多年的积累,相应软件生态成熟丰富,在与新模型、应用适配的时候具备完备的软件支撑能力。以上共同保障了对于DeepSeek V3/R1为代表的新模型能够提供高效的兼容与支撑能力。
值得注意的是,海光本次适配并没有用到额外的中间层工具,依托现有DCU软件栈就可以实现快速的支撑。这主要得益于DCU的GPGPU架构通用性和自身对主流生态的良好兼容,从而大幅提升了大模型等人工智能应用的部署效率。
2月4日,天数智芯与 Gitee AI 联合发布消息,在双方的高效协作下,仅用时一天,便成功完成了与 DeepSeek R1 的适配工作,并且已正式上线多款大模型服务,其中包括 DeepSeek R1-Distill-Qwen-1.5B、DeepSeek R1-Distill-Qwen-7B、DeepSeek R1-Distill-Qwen-14B等。
2月2日,Gitee AI 正式推出了四个轻量级版本的 DeepSeek 模型,分别为
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B 和 DeepSeek-R1-Distill-Qwen-32B。尤为引人注目的是,这些模型均部署在国产沐曦曦云 GPU 上。
上文曾提到,与全尺寸 DeepSeek 模型相比,较小尺寸的 DeepSeek 蒸馏版本模型更适合企业内部实施部署,可以降低落地成本。
同时,这次Deepseek R1 模型 + 沐曦曦云 GPU + Gitee AI 平台,更是实现了从芯片到平台,从算力到模型全国产研发。
随后在2月5日 Gitee AI宣布再次将DeepSeek-V3满血版(671B)上线到平台上(满血版目前仅供大家体验用途)。这也是 Gitee AI 继全套千问蒸馏模型上线沐曦 GPU 卡之后的又一大的更新。
2月5日,壁仞科技宣布,凭借自主研发的壁砺系列GPU产品出色的兼容性能,只用数个小时,就完成对DeepSeek R1全系列蒸馏模型的支持,涵盖从1.5B到70B各等级参数版本,包括LLaMA蒸馏模型和千问蒸馏模型。
目前,壁仞科技已构建起从底层硬件到模型服务的完整AI技术栈,可为中小企业和研究机构提供“芯片+模型”的端到端解决方案。
2月5日,云天励飞宣布,其芯片团队完成 DeepEdge10 “算力积木”芯片平台与
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B大模型的适配,可以交付客户使用。DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B大模型、DeepSeek V3/R1 671B MoE大模型也在有序适配中。适配完成后,DeepEdge10芯片平台将在端、边、云全面支持DeepSeek全系列模型。
DeepEdge10系列芯片是专门针对大模型时代打造的芯片,支持包括 Transformer 模型、BEV 模型、CV 大模型、LLM 大模型等各类不同架构的主流模型;基于自主可控的先进国产工艺打造,采用独特的“算力积木”架构,可灵活满足不同场景对算力的需求,为大模型推理提供强大动力。
2月5日,太初元碁Tecorigin表示,基于通用的异构众核芯片架构和深厚的软件生态积累,在太初T100加速卡上仅用2小时便完成DeepSeek-R1系列模型的适配工作,快速上线包括
DeepSeek-R1-Distill-Qwen-7B在内的多款大模型服务,为人工智能应用的创新发展提供了强有力的技术支撑和自动可控的算力设施保障。
目前,太初元碁正积极携手京算、是石科技、神威数智、龙芯中科等合作伙伴,全力打造DeepSeek系列模型的云端推理平台。企业用户只需通过简单的操作,即可在云端快速获取太初T100加速卡的强大推理能力,轻松实现智能化转型,提升生产效率和创新能力,以在激烈的市场竞争中脱颖而出。同时,太初元碁也联合龙芯中科提供面向政务信创的国密云端推理平台,以满足信创刚需。
2月6日,燧原科技宣布完成对DeepSeek全量模型的高效适配,包括DeepSeek-R1/V3 671B原生模型、
DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸馏模型。整个适配进程中,燧原AI加速卡的计算能力得到充分利用,能够快速处理海量数据,同时其稳定性为模型的持续优化和大规模部署提供了坚实的基础。
目前,DeepSeek的全量模型已在庆阳、无锡、成都等智算中心完成了数万卡的快速部署,将为客户及合作伙伴提供高性能计算资源,提升模型推理效率,同时降低使用门槛,大幅节省硬件成本。
2月6日,昆仑芯科技宣布,在DeepSeek-V3/R1上线不久,昆仑芯便率先完成全版本模型适配,这其中包括DeepSeek MoE 模型及其蒸馏的Llama/Qwen等小规模dense模型。
昆仑芯P800可以较好的支撑DeepSeek系列MoE模型大规模训练任务,全面支持MLA、多专家并行等特性,仅需32台即可支持模型全参训练,高效完成模型持续训练和微调。
P800显存规格优于同类主流GPU20%-50%,对MoE架构更加友好,且率先支持8bit推理,单机8卡即可运行 671B 模型。正因如此,昆仑芯相较同类产品更加易于部署,同时可显著降低运行成本,轻松完成DeepSeek-V3/R1全版本推理任务。
2月7日,龙芯中科宣布,日前,龙芯联合太初元碁等产业伙伴,仅用2小时即在太初T100加速卡上完成DeepSeek-R1系列模型的适配工作,快速上线包含
DeepSeek-R1-Distill-Qwen-7B在内的多款大模型服务。
此外,采用龙芯3A6000处理器的诚迈信创电脑和望龙电脑已实现本地部署DeepSeek,部署后无需依赖云端服务器,避免了因网络波动或服务器过载导致的服务中断,可高效完成文档处理、数据分析、内容创作等多项工作,显著提升工作效率。
DeepSeek给国产芯片公司,带来新契机
DeepSeek 的横空出世宛如一颗投入平静湖面的石子,在行业中激起层层涟漪,为国产芯片公司带来新的发展契机。
首先,随着大模型应用的遍地开花,对芯片的需求也水涨船高。无论是模型训练时所需的强大算力,还是推理过程中对低延迟、高效率的追求,都为国产芯片公司打开了新的市场空间。以往,由于高昂的大模型使用成本,许多潜在的应用场景被抑制,如今 DeepSeek 打破了这一僵局,国产芯片公司得以凭借自身产品在新兴的细分市场中崭露头角,满足不同行业对于大模型运算的芯片需求。
其次,DeepSeek 大模型与国产 AI 芯片适配的逐步成熟,是另一个关键契机。此前,国产 AI 芯片在发展过程中,常面临与主流大模型适配度不佳的问题,这限制了其市场推广与应用拓展。而 DeepSeek 的出现改变了这一局面,它为国产 AI 芯片提供了一个更为契合的适配平台。
当国产 AI 芯片能够与 DeepSeek 大模型良好适配后,可以加快国产 AI 芯片在国内大模型训练端和推理端的应用,使得国产芯片在本土市场中获得更多实践机会,通过不断优化和改进,提升产品性能。
最后,随着 DeepSeek 与国产芯片的适配,将与其他国产软硬件厂商形成协同效应,构建起完整的生态闭环,这将推动国产芯片在人工智能领域的应用,加速国产芯片生态体系的建设。