预训练权重是什么（预训练权重和训练权重）

 
  
    
   
   
     
    
     
      
       
       “IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台，致力于帮助读者在广义的IT领域里，掌握更专业、更实用的知识与技能，快速提升职场竞争力。 点击蓝色微信名可快速关注我们!

本文涉及到的详细测试代码和测试步骤放置于：

https://github.com/davidsajare/david-share.git

下的：DeepLearning/PreTrain-and-SFT,本文中不再赘述代码实现。

一句话说清预训练与微调的本质区别

预训练的目标、采用的数据集、需要的GPU数量都不同。但如果要从深度学习训练本质说清区别，它是：

预训练采用随机初始化模型参数的方式，构造模型，然后通过大量的未打标签数据进行训练，学习语料的通用特征；而微调会从预训练模型中加载参数，保留了预训练过程中学到的通用特征，通过少量高质量的打标签语料来训练模型，以提高模型在特定任务上的能力和性能。

上文提到的参数包含：权重,偏置,Word Embeddings,Positional Encoding,注意力机制参数等。

展开说明

预训练的主要目标是通过大规模的无监督数据集（如文本语料库）来学习语言的基本结构和语义特征。预训练通常涉及以下步骤：

随机初始化权重：模型的参数，如权重和偏置在预训练开始时是随机初始化的。
大规模数据集：使用大量的无监督数据进行训练。
学习通用特征：模型通过优化损失函数（如语言模型的交叉熵损失）来学习语言的通用特征。

预训练的关键点

随机初始化：模型的所有参数（权重、偏置等）在预训练开始时是随机的。
大规模数据：使用大规模的无监督数据集进行训练。
通用特征：学习语言的基本结构和语义特征，为后续任务提供一个良好的起点。

微调的主要目标是通过特定任务的数据集来优化模型在该任务上的性能。微调通常涉及以下步骤：

加载预训练权重：模型的权重和偏置从预训练模型中加载。
特定任务数据：使用特定任务的数据集进行训练。
优化特定任务性能：模型通过优化损失函数来调整参数，以提高在特定任务上的性能。

微调的关键点

加载预训练权重：模型的参数从预训练模型中加载，保留了预训练过程中学到的通用特征。
特定任务数据：使用特定任务的数据集进行训练。
任务优化：进一步调整模型参数，以优化在特定任务上的性能。

训练效率：预训练通常需要大量的计算资源和时间，因为它需要在大规模数据集上训练模型的所有参数。而微调则相对高效，因为它在预训练模型的基础上进行，只需要进一步优化特定任务的数据。
模型性能：预训练模型已经学习了语言的通用特征，这使得微调能够更快地收敛，并且在特定任务上表现更好。直接从随机初始化开始训练特定任务模型，通常需要更多的数据和时间，且性能可能不如预训练+微调的方式。
应用场景：预训练模型可以作为通用的基础模型，适用于多种下游任务。通过微调，可以快速适应不同的任务需求，而不需要从头开始训练模型。

预训练代码展示

我们以GPT2为例

https://huggingface.co/docs/transformers/v4.44.0/en/model_doc/gpt2#transformers.GPT2LMHeadModel

如果要对GPT-2进行预训练加载，需要使用到GPT2LMHeadModel和GPT2Config这两个类。

由于模型很小，单卡H100就能预训练：

训练后的模型可以进行推理验证。

微调代码展示

我们微调一个模型，通常指的是Supervised Fine Tuning。SFT又分为Parameter-Efficient Fine-Tuning (PEFT) 和 Full Fine Tuning。

PEFT实现中，目前像LoRA,QLoRA，GA-LoRA都比较流行。

我们先看Full Fine Tuning加载模型的方式，调用的是AutoModelForCausalLM.from_pretrained的类，它会获取预训练模型的参数。

model = AutoModelForCausalLM.from_pretrained( model_name, attn_implementation=attn_implementation, device_map={"": 0})model.gradient_checkpointing_enable(gradient_checkpointing_kwargs={'use_reentrant':True})

关于完整的预训练代码，参考repo中：

https://github.com/davidsajare/david-share.git

下的：DeepLearning/SmolLM-Full-Fine-Tuning

接下来我们看微调、LoRA和QLoRA在代码实现上的区别。

在加载模型和训练参数方面，全微调、LoRA和QLoRA有以下区别：

全微调

直接加载完整的模型进行训练。
使用AutoModelForCausalLM.from_pretrained加载模型。

LoRA

加载模型后，使用LoRA配置进行参数高效微调。
使用peft库中的LoraConfig来配置LoRA参数。
目标模块通常是特定的投影层，如k_proj、q_proj等。

QLoRA

在LoRA的基础上，结合量化技术（如4-bit量化）以减少内存占用。
使用BitsAndBytesConfig进行量化配置。
需要调用prepare_model_for_kbit_training来准备模型。

全微调

训练所有模型参数。
通常需要更大的内存和计算资源。
使用标准的优化器如adamw_torch。

LoRA

只训练LoRA插入的低秩矩阵，其他参数保持不变。
训练速度较快，内存占用较少。
使用paged_adamw_8bit等优化器。

QLoRA

结合LoRA和量化技术，进一步减少内存占用。
适合在资源有限的环境下进行大模型微调。
同样使用paged_adamw_8bit优化器。

需要指出的是，在进行LoRA或者QLoRA微调时，我们可以指定训练的模块，如：

详见：https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Continue-Pre-training

关于训练的分布式实现

毫无疑问，大语言模型的预训练需要多级多卡。这时候就需要分布式训练。

目前预训练的分布式底层可以通过调用NCCL实现。上层工具可以用Megatron、DeepSpeed、HF的accelerate库（目前支持FSDP）。这些工具较好的实现了DP/PP/TP。

Megatron与DeepSpeed结合实现预训练详见：

https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Megatron%2BDeepspeed-Pretrain-GPT2

Deepspeed实现SFT的示例详见：

https://github.com/davidsajare/david-share/tree/master/Multimodal-Models/DeepSpeed-FT-Stable-Diffusion

目前一些开源的微调工具如Axolotl，也能直接对接DeepSpeed，示例详见：

https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Fine-tuning-with-Axolotl

使用 accelerate 的FSDP时，可以结合其他并行策略来实现更高效的训练。

Data Parallelism (DP)：

FSDP本身就是一种数据并行策略，通过对模型参数进行分片来实现。

Pipeline Parallelism (PP)：

可以将模型分成多个阶段，每个阶段在不同的设备上运行。需要手动划分模型并管理数据流。

Tensor Parallelism (TP)：

将单个层的计算分布在多个设备上。需要对模型的计算图进行修改。

要结合这些策略，通常需要对模型和训练脚本进行较多的自定义和调整。accelerate提供了一些工具来简化这些过程，但具体实现可能需要结合PyTorch的其他库（如
torch.distributed）和自定义代码。

accelerate的FSDP的示例详见：

https://github.com/davidsajare/david-share/tree/master/Deep-Learning/Llama-3.1-70B-FSDP-Fine-Tuning

大语言模型的现状和未来

三位微软解决方案技术专家

共同打造

微软中国区总裁原欣

红帽全球副总裁兼大中华区总裁曹衡康

微软中国区首席技术官韦青

NVIDIA电信行业总监贾楠

联袂推荐

▊《大语言模型原理、训练及应用——基于GPT》

魏新宇白雪冰周博洋

三位微软解决方案技术专家共同打造。
系统总结LLM/SLM和Copilot端到端的开发经验，全面归纳GPU训练推理实战方法，面向AI架构师及开发者的实用技术指南。

本文来源：公众号“大魏分享”

图片转载：公众号“大魏分享”

责任编辑：郝建伟

审核人：曹新宇

到此这篇预训练权重是什么（预训练权重和训练权重）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇： 3DTiles原理（3dtiles lod）

下一篇：怎么拆包装袋的线（怎么拆包装袋的线条视频）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/bcyy/54122.html

预训练的关键点

微调的关键点

相关文章：