trasformer
image6197364e54c621c4.png

简单回顾一下,encoder将token编码处理,得到embedding.然后送入decoder。decoder的input是前一个时间点产生的output。

image1959f33ef978d393.png

Masked Multi-Head Attention,Masked的意思是,在做self-attention的时候,这个decoder只会attend到已经产生的sequence(这个sequence长度和encoder的输出长度不一样),因为没有产生的部分无法做attention

BERT
结构:

BERT只使用了transformer的encoder部分.

input: token embedding +segment embedding + position embedding

会将输入的自然语言句子通过WordPiece embeddings来转化为token序列。之所以会有segment embedding是因为bert会做NSP(next sentense prediction)任务,判断两个句子间的关系,需要sentense级别的信息
image1959f33ef978d393.png

output:为预测这些被遮盖掉的token,被mask掉的词将会被输入到一个softmax分类器中,分类器输出的维度对应词典的大小。

GPT

GPT 预训练的方式和传统的语言模型一样,通过上文,预测下一个单词;GPT 预训练的方式是使用 Mask LM。

例如给定一个句子 [u1, u2, …, un],GPT 在预测单词 ui 的时候只会利用 [u1, u2, …, u(i-1)] 的信息,而 BERT 会同时利用 [u1, u2, …, u(i-1), u(i+1), …, un] 的信息

结构

GPT只使用了transformer的decoder部分,并去掉了第二个multi self attention layer

标签: none

已有 14 条评论

  1. 叼茂SEO.bfbikes.com

  2. 不错不错,我喜欢看 https://www.jiwenlaw.com/

  3. 怎么收藏这篇文章?

  4. 看的我热血沸腾啊www.jiwenlaw.com

  5. 独家揭秘:全新开服传奇私服,超震撼体验,玩家必玩火爆大服!:https://501h.com/heji/2024-08-16/28283.html

  6. 你的文章内容非常卖力,让人点赞。 https://www.yonboz.com/video/86792.html

  7. 《爱神》喜剧片高清在线免费观看:https://www.jgz518.com/xingkong/14381.html

  8. 你的文章充满了欢乐,让人忍不住一笑。 http://www.55baobei.com/JZk8M9BLlm.html

  9. 《魔岛迷踪》恐怖片高清在线免费观看:https://www.jgz518.com/xingkong/141508.html

  10. 字里行间流露出真挚的情感,让人感同身受,共鸣不已。

  11. ?创新性评语?

  12. ?金句式评语?

  13. 文章紧扣主题,观点鲜明,展现出深刻的思考维度。

  14. 内容的丰富性和深度让人仿佛置身于知识的海洋,受益匪浅。

添加新评论