Transformer 是一种基于自注意力机制(Self-Attention)的深度学习模型架构,最早用于自然语言处理。其核心由编码器-解码器结构组成,但在大模型中通常只保留编码器(如 BERT)或解码器(如 GPT)。与 RNN 不同,Transformer 可并行处理序列,并通过多头注意力机制捕捉远距离依赖关系,支持上下文建模。其结构特点包括:位置编码、多层堆叠的注意力与前馈模块、残差连接与归一化。由于其高效、可扩展的特性,Transformer 成为当前大语言模型(LLM)和多模态模型的主流基础架构。