预训练和微调模型的区别（预训练模型的作用）

1 算法简介

BERT的全称为Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model（MLM），以致能生成深度的双向语言表征。BERT论文发表时提及在11个NLP（Natural Language Processing，自然语言处理）任务中获得了新的state-of-the-art的结果，令人目瞪口呆。

该模型有以下主要特点：

1）采用MLM对双向的Transformers进行预训练，以生成深层的双向语言表征。

2）预训练后，只需要添加一个额外的输出层进行fine-tune，就可以在各种各样的下游任务中取得state-of-the-art的表现。在这过程中并不需要对BERT进行任务特定的结构修改。

2 算法原理

BERT的输入为每一个token对应的表征（图中的粉红色块就是token，黄色块就是token对应的表征），并且单词字典是采用WordPiece算法来进行构建的。为了完成具体的分类任务，除了单词的token之外，作者还在输入的每一个序列开头都插入特定的分类token（[CLS]），该分类token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用。

由于BERT是一个预训练模型，其必须要适应各种各样的自然语言任务，因此模型所输入的序列必须有能力包含一句话（文本情感分类，序列标注任务）或者两句话以上（文本摘要，自然语言推断，问答任务）。那么如何令模型有能力去分辨哪个范围是属于句子A，哪个范围是属于句子B呢？BERT采用了两种方法去解决：

1）在序列tokens中把分割token（[SEP]）插入到每个句子后，以分开不同的句子tokens。

2）为每一个token表征都添加一个可学习的分割embedding来指示其属于句子A还是句子B。

因此最后模型的输入序列tokens为下图（如果输入序列只包含一个句子的话，则没有[SEP]及之后的token）：

上面提到了BERT的输入为每一个token对应的表征，实际上该表征是由三部分组成的，分别是对应的token，分割和位置 embeddings，如下图：

到此为止，BERT的输入已经介绍完毕，可以看到其设计的思路十分简洁而且有效。

介绍完BERT的输入，实际上BERT的输出也就呼之欲出了，因为Transformer的特点就是有多少个输入就有多少个对应的输出，如下图：

C为分类token（[CLS]）对应最后一个Transformer的输出，Ti则代表其他token对应最后一个Transformer的输出。对于一些token级别的任务（如，序列标注和问答任务），就把Ti输入到额外的输出层中进行预测。对于一些句子级别的任务（如，自然语言推断和情感分类任务），就把C输入到额外的输出层中，这里也就解释了为什么要在每一个token序列前都要插入特定的分类token。

3 算法应用

BERT模型是一个强大的预训练模型，通过采用Transformer训练出一个强大的预训练模型，并可以将预训练的模型进行迁移学习。例如在基于中医医案的命名实体识别研究中，研究者提出在BiLSTM-CRF算法上加入BERT语言模型来提高中医医案命名实体识别效果。该模型采用双向Transformer编码器，生成的字向量可以充分融合字词左右的上下文信息，与传统语言模型相比，该模型可以更充分地表征字的多义性。该实验结果也可以说明，BERT模型对于文本数据字符间的关系特征提取及其性能提升有明显效果，此模型在中医医案的命名实体识别相比于其他模型优势较明显。

4 小结

BERT 相较于原来的 RNN、LSTM 可以做到并发执行，同时提取词在句子中的关系特征，并且能在多个不同层次提取关系特征，进而更全面反映句子语义。相较于 word2vec，其又能根据句子上下文获取词义，从而避免歧义出现。但同时BERT模型也存在参数太多，模型太大，少量数据训练时容易过拟合以及对生成式任务和长序列建模支持不好等缺点。

参考文献：

[1]知乎专栏. 《读懂BERT，看这一篇就够了》. 见于 2024年2月28日. https://zhuanlan.zhihu.com/p/ .
[2]知乎专栏. 《读懂BERT，看这一篇就够了》. 见于 2024年2月28日. https://zhuanlan.zhihu.com/p/ .
[3]胡为,刘伟,石玉敬.基于BERT-BiLSTM-CRF的中医医案命名实体识别方法[J].计算机时代,2022(09):119-122+135.DOI:10.16644/j.cnki.cn33-1094/tp.2022.09.027.
推荐阅读：
深度卷积神经网络--武装越多则越强
因子分析--想”打击“，先降维
独立成分分析（ICA）--对混合数据信号的“庖丁解牛”

到此这篇预训练和微调模型的区别（预训练模型的作用）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇：服务器部署（微信小程序服务器部署）

下一篇：微信ghs会封号吗（微信封号犯法吗）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/hd-wfwjg/74202.html

相关文章：