2023年5月

多模态AI

Transformer模型
f0d5bff539ac444bbe3ef05a77202fec~noop.png
来自Yang, JF et al., Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond。

今天多模态AI的技术进展状态，像极了2017年前后的NLP领域。

2017年是Google提出Transformer技术的时间，也是NLP科研领域百花齐放，多路径同时迭代，上下游任务各自突破的时代。在自然语言处理顶级学术会议ACL 2017年的论文列表（https://aclanthology.org/events/acl-2017/）中，我们可以找到那个时代科研人员最关心的技术话题。

2017年，文本分类、语义解析（Semantic Parsing）、向量编码、机器翻译、文本生成、阅读理解、知识问答、主题模型、方面提取（Aspect Extraction）等等上下游任务与Attention、RNN、CNN、Sequence-to-sequence、Sequence-to-Dependency等不同技术路线之间以各种方式排列组合，让人目不暇给。即便是进入了2018年的BERT时代，科研圈的很多人还是在反复争论到底哪一种路线才是通往“人工智能圣杯”的最优路径。

概念上，多模态AI指的是能够执行一种或多种跨模态/多模态任务的AI算法。典型的跨模态/多模态任务（科研上，“跨模态”与“多模态”有不同的内涵，本文不做详细说明）包括：

跨模态的生成任务，如文生图；
输出多模态信息的生成任务，如根据文字描述，自动输出混合了图、文、视频内容的展示文稿；
跨模态的理解任务，如自动为视频编配语义字幕；
跨模态的逻辑推理任务，如根据输入的几何图形，给出有关定理的文字证明；
多模态的逻辑推理任务，如请AI玩密室逃脱——这需要AI根据密室空间结构，文字信息，图片信息等推理出最优解决方案；
……

Transformer结构及其应用详解

Transformer 是Google Brain 2017的提出的一篇工作，它针对RNN的弱点进行重新设计，解决了RNN效率问题和传递中的缺陷等，在很多问题上都超过了RNN的表现。

RNN：Recurrent Neural Network, 循环神经模型。

单向二阶段训练模型——OpenAI GPT

GPT(Generative Pre-Training)，是OpenAI在2018年提出的模型，利用Transformer模型来解决各种自然语言问题，例如分类、推理、问答、相似度等应用的模型。GPT采用了Pre-training + Fine-tuning的训练模式，使得大量无标记的数据得以利用，大大提高了这些问题的效果。

GPT就是利用Transformer进行自然语言各种任务的尝试之一，主要有以下三个要点

Pre-Training的方式
单向Transformer模型
Fine-Tuning与不同输入数据结构的变化

GPT的全称是“Generative Pre-trained Transformer”，即预训练生成式转换器。

双向二阶段训练模型——BERT

BERT(Bidirectional Encoder Representation from Transformer)，是Google Brain在2018年提出的基于Transformer的自然语言表示框架。是一提出就大火的明星模型。BERT与GPT一样，采取了Pre-training + Fine-tuning的训练方式，在分类、标注等任务下都获得了更好的效果。

BERT与GPT非常的相似，都是基于Transformer的二阶段训练模型，都分为Pre-Training与Fine-Tuning两个阶段，都在Pre-Training阶段无监督地训练出一个可通用的Transformer模型，然后在Fine-Tuning阶段对这个模型中的参数进行微调，使之能够适应不同的下游任务。

虽然BERT与GPT看上去非常的相似，但是它们的训练目标和模型结构和使用上还是有着些许的不同：

GPT采用的是单向的Transformer，而BERT采用的是双向的Transformer，也就是不用进行Mask操作；
使用的结构的不同，直接导致了它们在Pre-Training阶段训练目标的不同；

多任务模型——MT-DNN

MT-DNN (Multi-Task Deep Neural Networks) 依然采用了BERT的二阶段训练方法以及双向Transformer。在Pre-Training阶段，MT-DNN与BERT几乎完全一样，但是在Fine-Tuning阶段，MT-DNN采用了多任务的微调方式。同时采用Transformer输出的上下文Embedding进行单句分类、文本对相似度、文本对分类以及问答等任务的训练。

https://zhuanlan.zhihu.com/p/69290203

多模态AI

Transformer结构及其应用详解

最新文章

最近回复

分类

归档

其它