MosaicML推出70亿参数模型MPT-7B-8，号称一次处理8000字长文本- DoNews

MosaicML推出70億參數模型MPT-7B-8，號稱一次處理8000字長文本

李旭 2023-07-25 16:10:07

418863

分享到

DoNews7月25日消息，AI 創業公司 MosaicML 近日發布了其 70 億參數模型 MPT-7B-8K，據悉，該模型一次可以處理 8000 字文本，相當擅長處理長文重點摘要和問答，還能在 MosaicML 平臺上根據特定任務，進一步微調相關配置。

據悉，系列模型采用了 150 萬個 Token，并以 256 塊 H100 GPU 花 3 天完成模型訓練而成。MosaicML 本次發布了 3 個版本模型，包括 MPT-7B-8k、MPT-7B-8k-Instruct 和 MPT-7B-8k-Chat。

其中，第一個版本 MPT-7B-8k、是以 Transformer 解碼器為基礎，并以 FlashAttention 和 FasterTransformer 機制來加速訓練與推論，能一次處理 8000 字文本，MosaicML 公司表示，該模型開源、允許商用。

第二個版本 MPT-7B-8k-Instruct 是以第一個版本 MPT-7B-8k 微調而成，MosaicML 公司表示，MPT-7B-8k-Instruct 模型可處理長篇指令，特別注重于生成“摘要和問答”，該模型一樣開源且可商用。

第三個版本 MPT-7B-8k-Chat 則是機器人對話式的 AI 模型，MosaicML 公司宣稱，該模型額外多用了 15 億個聊天數據 Token，在第一版模型 MPT-7B-8k 之上繼續訓練而成，該模型開源，但不允許商用。

標簽: MosaicML

MosaicML推出70億參數模型MPT-7B-8，號稱一次處理8000字長文本

掃描二維碼查看原文

分享自DoNews

網站信息