2023年1月

trasformer

简单回顾一下，encoder将token编码处理，得到embedding.然后送入decoder。decoder的input是前一个时间点产生的output。

Masked Multi-Head Attention，Masked的意思是，在做self-attention的时候，这个decoder只会attend到已经产生的sequence(这个sequence长度和encoder的输出长度不一样)，因为没有产生的部分无法做attention

BERT
结构：

BERT只使用了transformer的encoder部分.

input: token embedding ＋segment embedding + position embedding

会将输入的自然语言句子通过WordPiece embeddings来转化为token序列。之所以会有segment embedding是因为bert会做NSP(next sentense prediction)任务，判断两个句子间的关系，需要sentense级别的信息

output:为预测这些被遮盖掉的token,被mask掉的词将会被输入到一个softmax分类器中，分类器输出的维度对应词典的大小。

GPT

GPT 预训练的方式和传统的语言模型一样，通过上文，预测下一个单词；GPT 预训练的方式是使用 Mask LM。

例如给定一个句子 [u1, u2, …, un]，GPT 在预测单词 ui 的时候只会利用 [u1, u2, …, u(i-1)] 的信息，而 BERT 会同时利用 [u1, u2, …, u(i-1), u(i+1), …, un] 的信息

结构

GPT只使用了transformer的decoder部分,并去掉了第二个multi self attention layer

Transformer、Bert、GPT简介