Transformer模型
基于自我注意力机制的模型
Transformer结构
- 编码器
- 将输入序列(例如,一个句子)映射到一个连续的表示空间 由多个相同的层堆叠而成
- 由多个相同的层堆叠而成
- 多头自注意力层(Multi-Head Self-Attention Layer):计算输入序列中每个单词与其他所有单词之间的关系,从而捕捉长距离的依赖关系
- 前馈神经网络(Position-wise Feed-Forward Networks):对每个位置的输出进行非线性变换。
- 解码器
- 根据编码器的输出生成目标序列 (例如,翻译后的句子)
- 除了编码器中的两个子层,解码器还包含一个额外的子层,编码器-解码器注意力层(Encoder-Decoder Attention Layer):允许解码器在生成每个输出单词时关注输入序列的相关部分
- 自注意力机制
- 是Transformer的核心。它通过计算查询(query)、键(key)和值(value)之间的相似度来衡量输入序列中不同位置之间的关系。
- 多头自注意力机制通过并行计算多个注意力头来捕捉不同方面的特征
chatgpt的工作流程
- 有监督的调优 预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的提示列表中生成的有监督的策略