久久精品欧美日韩精品/狠狠色婷婷久久一区二区三区/国产精品午夜无码av体验区/丰满人妻av无码一区二区三区/成人做爰A片免费看网站爱酱

谷歌DeepMind推出“可微緩存增強”技術,顯著提升大語言模型推理性能

谷歌DeepMind團隊近日推出了一項名為“可微緩存增強”(Differentiable Cache Augmentation)的新技術,旨在提升大語言模型(LLMs)的推理性能。該方法通過引入一個經過訓練的協處理器,增強模型的鍵值(kv)緩存,從而在不顯著增加計算負擔的情況下,顯著提升模型的推理能力。

在語言處理、數學和推理領域,大型語言模型是解決復雜問題的重要工具。然而,隨著模型復雜度的增加,如何在固定計算預算內保持高性能成為一大挑戰。傳統的優化方法往往需要在任務處理期間生成中間步驟,這會導致延遲增加和計算效率下降,限制了模型處理復雜推理任務的能力。

“可微緩存增強”技術通過三個步驟實現性能提升:首先,凍結的LLM從輸入序列生成kv緩存;其次,協處理器使用可訓練的軟令牌處理kv緩存,生成潛在嵌入;最后,增強的kv緩存反饋到LLM,生成更豐富的輸出。在Gemma-2 2B模型上的測試結果顯示,該方法在多個基準測試中取得了顯著成果,例如在GSM8K數據集上,準確率提高了10.05%;在MMLU上,性能提升了4.70%。

谷歌DeepMind的這項研究為大語言模型的性能優化提供了新的思路,通過引入外部協處理器增強kv緩存,研究人員在保持計算效率的同時顯著提高了模型性能,為LLMs處理更復雜的任務鋪平了道路。

Copyright ? DoNews 2000-2025 All Rights Reserved