
DeepSeek-V3:低成本预训练引领AI迈入分布式推理时代
近日,Lepton AI发布的DeepSeek-V3大模型在AI行业引发关注,其6710亿参数量模型仅用2048块GPU训练2个月,成本低至557.6万美元,性能却与其他前沿模型比肩甚至更优。这主要归功于其高效的训练和推理方法,包括多头潜在注意力(MLA)、DeepSeekMoE以及多Token预测目标(MTP)技术。DeepSeek-V3还创新性地将长思维链模型的推理能力蒸馏到标准模型中,提升了推理性能。
DeepSeek-V3的低成本预训练引发业界热议,有人认为这预示着AI大模型对算力需求的下降,甚至与A股算力概念的下跌联系起来。但也有观点认为,这只是更经济高效地进行模型探索,数据准备和模型训练的成本并未完全体现在预训练阶段。Lepton AI创始人兼CEO贾扬清强调,DeepSeek-V3的发布标志着分布式推理时代的到来,因为单GPU已无法满足其参数存储和性能需求。
与此同时,许多AI业内人士认为,AI的Scaling Law定律收益正在递减,我们正进入“测试时间计算时代”,即“推理时代”。快速推理对于解锁下一代AI应用至关重要,它能使AI模型有更多时间和算力进行“思考”,从而实现更智能的响应。
以豆包大模型为例,其应用场景的拓展正驱动着推理算力的需求增长,预计将带来数百亿元的AI服务器资本开支。字节跳动、小米等公司以及海外科技巨头都在加大对AI算力的投入,资本开支持续攀升。多家券商研报指出,算力需求将加速从预训练向推理侧倾斜,推理将成为下一阶段算力需求的主要驱动力。这为专注于高速推理的AI芯片制造商带来了巨大的市场机遇。
还没有评论,来说两句吧...