近日,AI公司深度求索(DeepSeek)正式上线全新系列模型DeepSeek-V3首个版本并同步开源。官方数据显示,该模型在多项评测集上超越了阿里Qwen2.5-72B、Meta的Llama-3.1-405B等其他头部开源模型,并逼近GPT-4o、Claude-3.5-Sonnet等顶尖闭源模型,甚至不分伯仲。
据官方技术论文披露,DeepSeek-V3是一个具有6710亿总参数的MoE(混合专家)模型,在14.8万亿token上进行了预训练。v3模型的总训练成本为557.6万美元,GPT-4o等模型的训练成本约为1亿美元。DeepSeek-V3定价为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元,并享有45天的优惠价格体验期。
显然,高性价比是DeepSeek大模型的关键特色之一。今年5月,DeepSeek发布的V2开源模型,将推理成本降到每百万token仅1元人民币,随后字节跳动、腾讯、百度、阿里等大厂纷纷降价,大模型价格战由此一触即发。
在DeepSeek-V3上线后,海外社交媒体平台X迅速对其“刷屏”,其中的焦点在于这一模型能力对标头部模型,但训练的预算却非常低,“2048个GPU、2个月、近600万美元”,而GPT-4o等模型除了训练成本约为1亿美元,还需至少在万个GPU量级的计算集群上训练。