久久精品欧美日韩精品/狠狠色婷婷久久一区二区三区/国产精品午夜无码av体验区/丰满人妻av无码一区二区三区/成人做爰A片免费看网站爱酱

MosaicML推出70億參數模型MPT-7B-8,號稱一次處理8000字長文本

DoNews7月25日消息,AI 創業公司 MosaicML 近日發布了其 70 億參數模型 MPT-7B-8K,據悉,該模型一次可以處理 8000 字文本,相當擅長處理長文重點摘要和問答,還能在 MosaicML 平臺上根據特定任務,進一步微調相關配置。

據悉,系列模型采用了 150 萬個 Token,并以 256 塊 H100 GPU 花 3 天完成模型訓練而成。MosaicML 本次發布了 3 個版本模型,包括 MPT-7B-8k、MPT-7B-8k-Instruct 和 MPT-7B-8k-Chat。

其中,第一個版本 MPT-7B-8k、是以 Transformer 解碼器為基礎,并以 FlashAttention 和 FasterTransformer 機制來加速訓練與推論,能一次處理 8000 字文本,MosaicML 公司表示,該模型開源、允許商用。

第二個版本 MPT-7B-8k-Instruct 是以第一個版本 MPT-7B-8k 微調而成,MosaicML 公司表示,MPT-7B-8k-Instruct 模型可處理長篇指令,特別注重于生成“摘要和問答”,該模型一樣開源且可商用。

第三個版本 MPT-7B-8k-Chat 則是機器人對話式的 AI 模型,MosaicML 公司宣稱,該模型額外多用了 15 億個聊天數據 Token,在第一版模型 MPT-7B-8k 之上繼續訓練而成,該模型開源,但不允許商用。

標簽: MosaicML
MosaicML推出70億參數模型MPT-7B-8,號稱一次處理8000字長文本
掃描二維碼查看原文
分享自DoNews
Copyright ? DoNews 2000-2025 All Rights Reserved