大型語言模型 (LLM)

基於 Transformer 在海量文字上預訓練的語言模型

概述

大型語言模型(Large Language Model,LLM)是指基於深度學習技術,特別是 Transformer 架構,在海量文字資料上進行預訓練而形成的語言模型。LLM 不僅能夠理解和生成人類語言,還展現出推理、程式碼撰寫、翻譯、問答等多種能力。從 GPT-3 到 GPT-4,從 LLaMA 到 Claude,LLM 正在深刻改變人工智慧的發展方向。

發展歷程

核心技術

Transformer 架構

LLM 的核心架構是 Transformer 的解碼器部分,使用自注意力機制來捕捉文字中的長距離依賴關係。模型通過在大量未標記文字上進行語言建模(預測下一個 token)來學習語言知識。

預訓練與微調

兩階段訓練策略:第一階段在大規模語料上進行無監督預訓練,第二階段在特定任務上進行微調。RLHF(基於人類回饋的強化學習)進一步將模型輸出與人類偏好對齊。

湧現能力

當模型規模超過某個閾值時,LLM 展現出小模型不具備的湧現能力:

本課程範例

相關連結