大型語言模型 (LLM)

概述

大型語言模型（Large Language Model，LLM）是指基於深度學習技術，特別是 Transformer 架構，在海量文字資料上進行預訓練而形成的語言模型。LLM 不僅能夠理解和生成人類語言，還展現出推理、程式碼撰寫、翻譯、問答等多種能力。從 GPT-3 到 GPT-4，從 LLaMA 到 Claude，LLM 正在深刻改變人工智慧的發展方向。

發展歷程

2017：Transformer 論文「Attention is All You Need」
2018：GPT-1（110M 參數）、BERT（340M 參數）
2019：GPT-2（1.5B 參數）、T5（11B 參數）
2020：GPT-3（175B 參數），湧現能力被發現
2022：ChatGPT（GPT-3.5 + RLHF），對話突破
2023-2024：GPT-4、LLaMA、Claude、Gemini 多模態能力

核心技術

Transformer 架構

LLM 的核心架構是 Transformer 的解碼器部分，使用自注意力機制來捕捉文字中的長距離依賴關係。模型通過在大量未標記文字上進行語言建模（預測下一個 token）來學習語言知識。

預訓練與微調

兩階段訓練策略：第一階段在大規模語料上進行無監督預訓練，第二階段在特定任務上進行微調。RLHF（基於人類回饋的強化學習）進一步將模型輸出與人類偏好對齊。

湧現能力

當模型規模超過某個閾值時，LLM 展現出小模型不具備的湧現能力：

上下文學習：僅透過提示詞中的範例就能學習新任務
思維鏈推理：生成中間推理步驟來解決複雜問題
指令遵循：理解並執行自然語言指令
程式碼生成：根據描述生成可執行的程式碼

本課程範例

microgpt.py — 微型 GPT 實作
gpt.py — Tensor 版 GPT
gpt0.py — 簡化版 GPT