1 算法简介
BERT的全称为Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。BERT论文发表时提及在11个NLP(Natural Language Processing,自然语言处理)任务中获得了新的state-of-the-art的结果,令人目瞪口呆。
该模型有以下主要特点:
1)采用MLM对双向的Transformers进行预训练,以生成深层的双向语言表征。
2)预训练后,只需要添加一个额外的输出层进行fine-tune,就可以在各种各样的下游任务中取得state-of-the-art的表现。在这过程中并不需要对BERT进行任务特定的结构修改。
2 算法原理
1)在序列tokens中把分割token([SEP])插入到每个句子后,以分开不同的句子tokens。
2)为每一个token表征都添加一个可学习的分割embedding来指示其属于句子A还是句子B。
3 算法应用
4 小结
BERT 相较于原来的 RNN、LSTM 可以做到并发执行,同时提取词在句子中的关系特征,并且能在多个不同层次提取关系特征,进而更全面反映句子语义。相较于 word2vec,其又能根据句子上下文获取词义,从而避免歧义出现。但同时BERT模型也存在参数太多,模型太大,少量数据训练时容易过拟合以及对生成式任务和长序列建模支持不好等缺点。
-
参考文献: [1]知乎专栏. 《读懂BERT,看这一篇就够了》. 见于 2024年2月28日. https://zhuanlan.zhihu.com/p/ . -
[2]知乎专栏. 《读懂BERT,看这一篇就够了》. 见于 2024年2月28日. https://zhuanlan.zhihu.com/p/ . -
[3]胡为,刘伟,石玉敬.基于BERT-BiLSTM-CRF的中医医案命名实体识别方法[J].计算机时代,2022(09):119-122+135.DOI:10.16644/j.cnki.cn33-1094/tp.2022.09.027. -
-
推荐阅读: -
深度卷积神经网络--武装越多则越强 -
因子分析--想”打击“,先降维 -
独立成分分析(ICA)--对混合数据信号的“庖丁解牛”
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/hd-wfwjg/74202.html