国产开源模型DeepSeek-V3逼近行业顶尖并火到海外

作者：陈兴华 2024-12-29

来源：爱集微 #AI大模型#

3.1w

近日，AI公司深度求索（DeepSeek）正式上线全新系列模型DeepSeek-V3首个版本并同步开源。官方数据显示，该模型在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他头部开源模型，并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型，甚至不分伯仲。

据官方技术论文披露，DeepSeek-V3是一个具有6710亿总参数的MoE(混合专家)模型，在14.8万亿token上进行了预训练。v3模型的总训练成本为557.6万美元，GPT-4o等模型的训练成本约为1亿美元。DeepSeek-V3定价为每百万输入tokens 0.5元（缓存命中）/2元（缓存未命中），每百万输出tokens 8元，并享有45天的优惠价格体验期。

显然，高性价比是DeepSeek大模型的关键特色之一。今年5月，DeepSeek发布的V2开源模型，将推理成本降到每百万token仅1元人民币，随后字节跳动、腾讯、百度、阿里等大厂纷纷降价，大模型价格战由此一触即发。

在DeepSeek-V3上线后，海外社交媒体平台X迅速对其“刷屏”，其中的焦点在于这一模型能力对标头部模型，但训练的预算却非常低，“2048个GPU、2个月、近600万美元”，而GPT-4o等模型除了训练成本约为1亿美元，还需至少在万个GPU量级的计算集群上训练。