“IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台,致力于帮助读者在广义的IT领域里,掌握更专业、更实用的知识与技能,快速提升职场竞争力。 点击蓝色微信名可快速关注我们!
01
一句话说清预训练与微调的本质区别
02
展开说明
预训练的主要目标是通过大规模的无监督数据集(如文本语料库)来学习语言的基本结构和语义特征。预训练通常涉及以下步骤:
- 随机初始化权重:模型的参数,如权重和偏置在预训练开始时是随机初始化的。
- 大规模数据集:使用大量的无监督数据进行训练。
- 学习通用特征:模型通过优化损失函数(如语言模型的交叉熵损失)来学习语言的通用特征。
预训练的关键点
- 随机初始化:模型的所有参数(权重、偏置等)在预训练开始时是随机的。
- 大规模数据:使用大规模的无监督数据集进行训练。
- 通用特征:学习语言的基本结构和语义特征,为后续任务提供一个良好的起点。
微调的主要目标是通过特定任务的数据集来优化模型在该任务上的性能。微调通常涉及以下步骤:
- 加载预训练权重:模型的权重和偏置从预训练模型中加载。
- 特定任务数据:使用特定任务的数据集进行训练。
- 优化特定任务性能:模型通过优化损失函数来调整参数,以提高在特定任务上的性能。
微调的关键点
- 加载预训练权重:模型的参数从预训练模型中加载,保留了预训练过程中学到的通用特征。
- 特定任务数据:使用特定任务的数据集进行训练。
- 任务优化:进一步调整模型参数,以优化在特定任务上的性能。
- 训练效率:预训练通常需要大量的计算资源和时间,因为它需要在大规模数据集上训练模型的所有参数。而微调则相对高效,因为它在预训练模型的基础上进行,只需要进一步优化特定任务的数据。
- 模型性能:预训练模型已经学习了语言的通用特征,这使得微调能够更快地收敛,并且在特定任务上表现更好。直接从随机初始化开始训练特定任务模型,通常需要更多的数据和时间,且性能可能不如预训练+微调的方式。
- 应用场景:预训练模型可以作为通用的基础模型,适用于多种下游任务。通过微调,可以快速适应不同的任务需求,而不需要从头开始训练模型。
03
预训练代码展示
我们以GPT2为例
https://huggingface.co/docs/transformers/v4.44.0/en/model_doc/gpt2#transformers.GPT2LMHeadModel
如果要对GPT-2进行预训练加载,需要使用到GPT2LMHeadModel和GPT2Config这两个类。
04
微调代码展示
我们微调一个模型,通常指的是Supervised Fine Tuning。SFT又分为Parameter-Efficient Fine-Tuning (PEFT) 和 Full Fine Tuning。
PEFT实现中,目前像LoRA,QLoRA,GA-LoRA都比较流行。
我们先看Full Fine Tuning加载模型的方式,调用的是AutoModelForCausalLM.from_pretrained的类,它会获取预训练模型的参数。
model = AutoModelForCausalLM.from_pretrained(
model_name, attn_implementation=attn_implementation, device_map={"": 0}
)
model.gradient_checkpointing_enable(gradient_checkpointing_kwargs={'use_reentrant':True})
- 全微调
- 直接加载完整的模型进行训练。
- 使用
AutoModelForCausalLM.from_pretrained
加载模型。 - LoRA
- 加载模型后,使用LoRA配置进行参数高效微调。
- 使用
peft
库中的LoraConfig
来配置LoRA参数。 - 目标模块通常是特定的投影层,如
k_proj
、q_proj
等。 - QLoRA
- 在LoRA的基础上,结合量化技术(如4-bit量化)以减少内存占用。
- 使用
BitsAndBytesConfig
进行量化配置。 - 需要调用
prepare_model_for_kbit_training
来准备模型。
- 全微调
- 训练所有模型参数。
- 通常需要更大的内存和计算资源。
- 使用标准的优化器如
adamw_torch
。 - LoRA
- 只训练LoRA插入的低秩矩阵,其他参数保持不变。
- 训练速度较快,内存占用较少。
- 使用
paged_adamw_8bit
等优化器。 - QLoRA
- 结合LoRA和量化技术,进一步减少内存占用。
- 适合在资源有限的环境下进行大模型微调。
- 同样使用
paged_adamw_8bit
优化器。
05
关于训练的分布式实现
accelerate
的FSDP时,可以结合其他并行策略来实现更高效的训练。- Data Parallelism (DP):
- FSDP本身就是一种数据并行策略,通过对模型参数进行分片来实现。
- Pipeline Parallelism (PP):
- 可以将模型分成多个阶段,每个阶段在不同的设备上运行。需要手动划分模型并管理数据流。
- Tensor Parallelism (TP):
- 将单个层的计算分布在多个设备上。需要对模型的计算图进行修改。
要结合这些策略,通常需要对模型和训练脚本进行较多的自定义和调整。accelerate
提供了一些工具来简化这些过程,但具体实现可能需要结合PyTorch的其他库(如torch.distributed
)和自定义代码。
大语言模型的现状和未来
三位微软解决方案技术专家
共同打造
▊《大语言模型原理、训练及应用——基于GPT》
魏新宇 白雪冰 周博洋
- 三位微软解决方案技术专家共同打造。
- 系统总结LLM/SLM和Copilot端到端的开发经验,全面归纳GPU训练推理实战方法,面向AI架构师及开发者的实用技术指南。
本文来源:公众号“大魏分享”
图片转载:公众号“大魏分享”
责任编辑:郝建伟
审 核 人:曹新宇
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/bcyy/54122.html