Transformer结构及其应用详解

Transformer 是Google Brain 2017的提出的一篇工作，它针对RNN的弱点进行重新设计，解决了RNN效率问题和传递中的缺陷等，在很多问题上都超过了RNN的表现。

RNN：Recurrent Neural Network, 循环神经模型。

单向二阶段训练模型——OpenAI GPT

GPT(Generative Pre-Training)，是OpenAI在2018年提出的模型，利用Transformer模型来解决各种自然语言问题，例如分类、推理、问答、相似度等应用的模型。GPT采用了Pre-training + Fine-tuning的训练模式，使得大量无标记的数据得以利用，大大提高了这些问题的效果。

GPT就是利用Transformer进行自然语言各种任务的尝试之一，主要有以下三个要点

Pre-Training的方式
单向Transformer模型
Fine-Tuning与不同输入数据结构的变化

GPT的全称是“Generative Pre-trained Transformer”，即预训练生成式转换器。

双向二阶段训练模型——BERT

BERT(Bidirectional Encoder Representation from Transformer)，是Google Brain在2018年提出的基于Transformer的自然语言表示框架。是一提出就大火的明星模型。BERT与GPT一样，采取了Pre-training + Fine-tuning的训练方式，在分类、标注等任务下都获得了更好的效果。

BERT与GPT非常的相似，都是基于Transformer的二阶段训练模型，都分为Pre-Training与Fine-Tuning两个阶段，都在Pre-Training阶段无监督地训练出一个可通用的Transformer模型，然后在Fine-Tuning阶段对这个模型中的参数进行微调，使之能够适应不同的下游任务。

虽然BERT与GPT看上去非常的相似，但是它们的训练目标和模型结构和使用上还是有着些许的不同：

GPT采用的是单向的Transformer，而BERT采用的是双向的Transformer，也就是不用进行Mask操作；
使用的结构的不同，直接导致了它们在Pre-Training阶段训练目标的不同；

多任务模型——MT-DNN

MT-DNN (Multi-Task Deep Neural Networks) 依然采用了BERT的二阶段训练方法以及双向Transformer。在Pre-Training阶段，MT-DNN与BERT几乎完全一样，但是在Fine-Tuning阶段，MT-DNN采用了多任务的微调方式。同时采用Transformer输出的上下文Embedding进行单句分类、文本对相似度、文本对分类以及问答等任务的训练。

https://zhuanlan.zhihu.com/p/69290203

标签: none

已有 16 条评论

xpjdommqpq

September 22nd, 2024 at 06:48 pm

博主真是太厉害了！！！

回复
drxaclhxnl

October 4th, 2024 at 09:37 pm

看的我热血沸腾啊https://www.ea55.com/

回复
ayiwyguije

October 6th, 2024 at 07:32 pm

想想你的文章写的特别好www.jiwenlaw.com

回复
awvjjxpxsn

October 19th, 2024 at 02:56 pm

兄弟写的非常好 https://www.cscnn.com/

回复
qdrlgtybeh

November 12th, 2024 at 04:33 am

《大力神和勇士公主》爱情片高清在线免费观看：https://www.jgz518.com/xingkong/101416.html

回复
quvkbbsrjr

November 13th, 2024 at 03:09 pm

畅玩无阻！揭秘移动网络下传奇私服全新攻略：https://501h.com/yuanshi/2024-07-28/23959.html

回复
okxklxwhyf

November 25th, 2024 at 08:15 pm

你的文章让我感受到了正能量，非常棒！ https://www.yonboz.com/video/94296.html

回复
yqpmjhcgyc

November 27th, 2024 at 05:42 am

《神宠鲁弗斯大冒险》剧情片高清在线免费观看：https://www.jgz518.com/xingkong/84520.html

回复
twyjvhzewv

December 2nd, 2024 at 12:05 am

《爱神》喜剧片高清在线免费观看：https://www.jgz518.com/xingkong/14381.html

回复
fwzxfoipbl

December 9th, 2024 at 03:21 am

《爱神》喜剧片高清在线免费观看：https://www.jgz518.com/xingkong/14381.html

回复
zyxnjtkssy

February 28th, 2025 at 09:29 pm

?哲理类评语?

回复
crfnodryzg

March 1st, 2025 at 06:25 am

对趋势的预判具有战略参考价值。

回复
dwllvzaarg

March 1st, 2025 at 08:35 am

实验数据可增加误差分析以提高严谨性。

回复
vqfyvaukgw

March 2nd, 2025 at 02:11 pm

部分语句稍显冗长，可精简以增强节奏感。

回复
sehxsiccqv

March 2nd, 2025 at 02:35 pm

隐喻层次丰富，留给读者想象空间。

回复
bkzezlgdmd

March 4th, 2025 at 04:07 pm

文章深入浅出，既有深度思考，又不乏广度覆盖，令人叹为观止。

回复

Transformer结构及其应用详解

已有 16 条评论

添加新评论

最新文章

最近回复

分类

归档

其它