昨日,“深度求索”官方公眾號發布博文,宣布DeepSeek-V3模型正式上線并同步開源。用戶可通過官網chat.deepseek.com與最新版V3模型進行對話。
DeepSeek-V3是一個6710億參數的專家混合(MoE)模型,激活參數達370億,并在14.8萬億token上進行了預訓練。該模型在多項評測中表現優異,超越了Qwen2.5-72B和Llama-3.1-405B等開源模型,性能比肩GPT-4o和Claude-3.5-Sonnet等世界頂尖閉源模型。
在知識、長文本、代碼、數學和中文等方面,DeepSeek-V3均取得了顯著進步,尤其在算法代碼和數學方面表現突出。生成速度提升至60 TPS,相比V2.5提升了3倍。
官方開源了原生FP8權重,并提供BF16轉換腳本,方便社區適配和應用。SGLang、LMDeploy、TensorRT-LLM和MindIE已支持V3模型推理。
此外,DeepSeek還調整了API服務價格,并設置了長達45天的優惠價格體驗期。即日起至2025年2月8日,用戶可享受優惠價格。