三分钟速览GPT系列原理|天天微资讯
其中,Transformer和BERT来自Google,GPT系列【GPT、GPT-1、GPT-2、GPT-3、ChatGPT、GPT-4】来自OpenAI。GPTPaper名为Improving
Paper名为Improving Language Understanding by Generative Pre-Training,通过生成式预训练模型来提高语言理解。
(相关资料图)
我们知道,BERT中使用(1)扣取某个单词,学习完形填空(2)判断是否为下一句来学习句子的相关性,两个任务来使用海量数据进行训练。在GPT中,训练分为无监督的预训练和有监督的微调,无监督的预训练使用标准语言模型,给定前i-1个单词,预测第i个单词;有监督的微调使用标准交叉熵损失函数。针对不同的任务,只需要按照下列方式将其输入格式进行转换,转换为一个或多个token序列,然后送入Transformer模型,后接一个任务相关的线性层即可。
GPT-2之前,大家倾向于为每个任务收集单独的数据集(single task training on single domain datasets),OpenAI在这篇文章中使用了zero-shot的设定来解决下游任务。
We demonstrate language models can perform down-stream tasks in a zero-shot setting -- without any parameters or architecture modification.
GPT的时候,针对不同的任务构造不同的输入序列进行微调,这里直接使用自然语言的方式训练网络并可以使用到不同的任务上去。
例如,对于一个机器翻译任务的训练样本【translation training example】为:
translate to french, english text, french text
对于阅读理解训练样本【reading comprehension training example】:
answer the question, document, question, answer
这种方法并不是作者首提的,但是作者将其用到了GPT的模型上,并取得了一个相对的效果【如果没有GPT-3的惊艳效果,估计它也就是一个不怎么被人所知的工作了】。
从GPT-2开始不再在子任务上做微调,直接使用预训练模型进行预测,这个是很牛掰的。
GPT-3GPT-3基于GPT-2继续做,GPT-2有1.5Billion【15亿】的参数量,GPT-3做到了175Billion【1750亿】的参数量。
Specififically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specifified purely via text interaction with the model.
摘要中这里详述了,GPT-3参数量翻了10倍,同时推理的时候使用了few-shot。对于所有的子任务,都不进行梯度更新,而是纯使用few-shot的形式改变输入。
Finally, we find that GPT-3 can generate samples of news articles which human evaluators have diffificulty distinguishing from articles written by humans.
GPT-3取得了非常经验的效果,已经能够写出人类无法分辨真假的假新闻。
这里详述一下zero-shot、one-shot、few-shot:
zero-shot:推理时,输入包含:任务描述 + 英文单词 + prompt[=>]one-shot:推理时,输入包含:任务描述 + 一个例子+ 英文单词 + prompt[=>]few-shot:推理时,输入包含:任务描述 + 多个例子+ 英文单词 + prompt[=>]Reference[1] Devlin, Chang, Lee, and Toutanova. BERT: Pre-training of deep bidirectional transformers for language understanding. In ACL, 2019.[2] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving language under standing with unsupervised learning. Technical report, OpenAI. [GPT][3] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. Language models are unsupervised multitask learners, 2019. [GPT-2][4] Brown, Tom B. et al. “Language Models are Few-Shot Learners.” ArXivabs/2005.14165 (2020): n. pag. [GPT-3][5] 沐神 GPT,GPT-2,GPT-3 论文精读【论文精读】
标签:
其中,Transformer和BERT来自Google,GPT系列【GPT、GPT-1、GPT-2、GPT-3、ChatGPT、GPT-4】来自OpenAI。GPTPaper名为Improving
这就意味着林高远 陈幸同夺得第一站的混双冠军后,也不能直通德班世乒赛。因为林高远 陈幸同在两站中...
格隆汇3月28日丨普源精电发布2022年年度报告,实现营业收入6 31亿元,同比增长30 30%;归属于上市公司...
文|杨万里中东土豪一出手,千亿巨头瞬间“起舞”。3月28日,荣盛石化一字涨停,总市值再次突破1400亿元...
【学习贯彻党的二十大精神】党的二十大精神市委宣讲团到松花江镇开展宣讲活动
乐居财经吴文婷3月28日,华泰证券发布研究报告指出,2022年垒知集团实现收入 归母净利润 扣非归母净利润39 5
北方地区多轮沙尘天气主要原因是什么?生态环境部回应---会上,针对今年春节以来北方地区出现多轮沙尘天...
23云建投SCP005票面利率为7 2000%
UI设计规范是指在UI设计过程中制定的一系列标准和规则,以确保UI设计的一致性、可读性和可用性。它不仅...
1、一朵鲜花水中开,有缘人儿走过来,有心下水把花采,双怕水深上不来,桃花开在二月里,我的情人就是你...