llm微调面

大模型（LLMs）微调面

1. ? 如果想要在某个模型基础上做全参数微调，究竟需要多少显存？

要确定全参数微调所需的显存量，需要考虑以下几个因素：

模型的大小：模型的大小是指模型参数的数量。通常，参数越多，模型的大小

就越大。大型的预训练模型如 Bert、GPT 等通常有数亿到数十亿个参数，而

较小的模型可能只有数百万到数千万个参数。模型的大小直接影响了所需的显

存量。

2. 批量大小：批量大小是指在每次训练迭代中一次性输入到模型中的样本数量。

较大的批量大小可以提高训练的效率，但也需要更多的显存。通常，全参数微

调时，较大的批量大小可以提供更好的性能。

3. 训练数据的维度：训练数据的维度是指输入数据的形状。如果输入数据具有较

高的维度，例如图像数据，那么所需的显存量可能会更大。对于文本数据，通

常需要进行一些编码和嵌入操作，这也会增加显存的需求。

4. 训练设备的显存限制：最后，需要考虑训练设备的显存限制。显卡的显存大小

是一个硬性限制，超过显存限制可能导致训练失败或性能下降。确保所选择的

模型和批量大小适应训练设备的显存大小。

综上所述，全参数微调所需的显存量取决于模型的大小、批量大小、训练数据的维度

以及训练设备的显存限制。在进行全参数微调之前，建议先评估所需的显存量，并确

保训练设备具备足够的显存来支持训练过程。

2. ? 为什么 SFT 之后感觉 LLM 傻了?

在进行 Supervised Fine-Tuning（SFT）之后，有时可能会观察到基座模型（如语言

模型）的性能下降或产生一些“傻”的行为。这可能是由于以下原因：

数据偏移：SFT 过程中使用的微调数据集可能与基座模型在预训练阶段接触到

的数据分布有所不同。如果微调数据集与预训练数据集之间存在显著的差异，

模型可能会在新任务上表现较差。这种数据偏移可能导致模型在新任务上出现

错误的预测或不准确的输出。

2. 非典型标注：微调数据集的标注可能存在错误或不准确的标签。这些错误的标

签可能会对模型的性能产生负面影响，导致模型产生“傻”的行为。

3. 过拟合：如果微调数据集相对较小，或者模型的容量（参数数量）较大，模型

可能会过拟合微调数据，导致在新的输入上表现不佳。过拟合可能导致模型过

于依赖微调数据的特定样本，而无法泛化到更广泛的输入。

4. 缺乏多样性：微调数据集可能缺乏多样性，未能涵盖模型在新任务上可能遇到

的各种输入情况。这可能导致模型在面对新的、与微调数据集不同的输入时出

现困惑或错误的预测。

为了解决这些问题，可以尝试以下方法：

– 收集更多的训练数据，以增加数据的多样性和覆盖范围。

– 仔细检查微调数据集的标注，确保标签的准确性和一致性。

– 使用正则化技术（如权重衰减、dropout）来减少过拟合的风险。

– 进行数据增强，通过对微调数据进行一些变换或扩充来增加多样性。

– 使用更复杂的模型架构或调整模型的超参数，以提高模型的性能和泛化能力。

通过这些方法，可以尽量减少 Supervised Fine-Tuning 之后模型出现“傻”的情况，并

提高模型在新任务上的表现。

3. ? SFT 指令微调数据如何构建?

构建 Supervised Fine-Tuning（SFT）的微调数据需要以下步骤：

1.收集原始数据：首先，您需要收集与目标任务相关的原始数据。这可以是对话

数据、分类数据、生成任务数据等，具体取决于您的任务类型。确保数据集具

有代表性和多样性，以提高模型的泛化能力。

2. 标注数据：对原始数据进行标注，为每个样本提供正确的标签或目标输出。标

签的类型取决于您的任务，可以是分类标签、生成文本、对话回复等。确保标

注的准确性和一致性。

3. 划分数据集：将标注数据划分为训练集、验证集和测试集。通常，大部分数据

用于训练，一小部分用于验证模型的性能和调整超参数，最后一部分用于最终

评估模型的泛化能力。

4. 数据预处理：根据任务的要求，对数据进行预处理。这可能包括文本清洗、分

词、去除停用词、词干化等处理步骤。确保数据格式和特征表示适合模型的输

入要求。

5. 格式转换：将数据转换为适合模型训练的格式。这可能涉及将数据转换为文本

文件、JSON 格式或其他适合模型输入的格式。

6. 模型微调：使用转换后的数据对基座模型进行微调。根据任务的要求，选择适

当的微调方法和超参数进行训练。这可以使用常见的深度学习框架（如

PyTorch、TensorFlow）来实现。

7. 模型评估：使用测试集对微调后的模型进行评估，计算模型在任务上的性能指

标，如准确率、召回率、生成质量等。根据评估结果对模型进行进一步的优化

和调整。

通过以上步骤，您可以构建适合 Supervised Fine-Tuning 的微调数据集，并使用该数

据集对基座模型进行微调，以适应特定任务的需求。

4. ? 领域模型 Continue PreTrain 数据选取？

在领域模型的 Continue PreTrain 过程中，数据选取是一个关键的步骤。以下是一些常见的数据

选取方法：

1. 域相关数据：首先，可以收集与目域相关的数据。些数据可以是从互网上爬取

的、来自特定域的文档或者公司内部的数据等。的数据可以提供域相关的言和

知，有助于模型在特定域上的表。

2. 域家注：如果有域家可用，可以他域相关的数据行注。注可以是分、命名体、

关系抽取等任，可以提供有督的数据用于模型的。

3. 伪标签：如果没有领域专家或者标注数据的成本较高，可以使用一些自动化的

方法生成伪标签。例如，可以使用预训练的模型对领域相关的数据进行预测，

将预测结果作为伪标签，然后使用这些伪标签进行模型的训练。

4.数据平衡：在进行数据选取时，需要注意数据的平衡性。如果某个类别的数据

样本较少，可以考虑使用数据增强技术或者对该类别进行过采样，以平衡各个

类别的数据量。

5. 数据质量控制：在进行数据选取时，需要对数据的质量进行控制。可以使用一

些质量评估指标，如数据的准确性、一致性等，来筛选和过滤数据。

6. 数据预处理：在进行数据选取之前，可能需要对数据进行一些预处理，如分

词、去除停用词、标准化等，以准备好输入模型进行训练。

在数据选取过程中，需要根据具体任务和需求进行适当的调整和定制。选择合适的数

据可以提高模型在特定领域上的性能和泛化能力。

5. ? 领域数据训练后，通用能力往往会有所下降，如何缓解模型遗忘通用能力？

当使用领域数据进行训练后，模型往往会出现遗忘通用能力的问题。以下是一些缓解

模型遗忘通用能力的方法：

1.保留通用数据：在进行领域数据训练时，仍然需要保留一部分通用数据用于模

型训练。这样可以确保模型仍然能够学习到通用的语言和知识，从而保持一定

的通用能力。

2. 增量学习：使用增量学习（Incremental Learning）的方法，将领域数据与通

用数据逐步交替进行训练。这样可以在学习新领域的同时，保持对通用知识的

记忆。

3. 预训练和微调：在领域数据训练之前，可以使用大规模通用数据进行预训练，

获得一个通用的基础模型。然后，在领域数据上进行微调，以适应特定领域的

任务。这样可以在保留通用能力的同时，提升领域任务的性能。

4. 强化学习：使用强化学习的方法，通过给模型设置奖励机制，鼓励模型在领域

任务上表现好，同时保持一定的通用能力。

5. 领域适应技术：使用领域适应技术，如领域自适应（Domain Adaptation）和领域对抗训练（Domain Adversarial

Training），帮助模型在不同领域之间进行迁移学习，从而减少遗忘通用能力

的问题。

6. 数据重采样：在进行领域数据训练时，可以使用数据重采样的方法，使得模型

在训练过程中能够更多地接触到通用数据，从而缓解遗忘通用能力的问题。

综合使用上述方法，可以在一定程度上缓解模型遗忘通用能力的问题，使得模型既能

够适应特定领域的任务，又能够保持一定的通用能力。

6. ? 领域模型 Continue PreTrain ，如何让模型在预训练过程中就学习到更多的知识？

在域模型的 Continue PreTrain 过程中，可以采取一些策略来让模型在预训练过程中

学习到更多的知识。以下是一些方法：

1. 多任务学习：在预训练过程中，可以引入多个任务，使得模型能够学习到更多

的知识

。这些任务

可以是领

域相关的任务

，也可以是通用的语

言理解任务

。通

过同时训练多个任务，模型可以学习到更多的语言规律和知识。

2. 多域数据：收集来自不同域的数据，包括目域和其他相关域的数据。将些数据

混合在一起行，可以使得模型在不同域的知都得到学和融合。

大规模数据：使用更大规模的数据进行预训练，可以让模型接触到更多的语言

和知识。可以从互联网上爬取大量的文本数据，或者利用公开的语料库进行预

训练。

4. 数据增强：在预训练过程中，可以采用数据增强的技术，如随机遮挡、词替

换、句子重组等，来生成更多的训练样本。这样可以增加模型的训练数据量，

使其能够学习到更多的知识和语言规律。

5. 自督学：引入自督学的方法，通一些自生成的或任，

模型在无督的情况下行。例如，可以一个掩言模型任

，模型被掩的。可以使模型在程中学到更多的

语言知识。

综合使用上述方法，可以让模型在预训练过程中学习到更多的知识和语言规律，提升

其在领域任务上的性能。

7. ? 进行 SFT 操作的时候，基座模型选用 Chat 还是 Base?

在进行 Supervised Fine-Tuning（SFT）操作时，基座模型的选择也可以根据具体情况来决

定。与之前的 SFT 操作不同，这次的目标是在特定的监督任务上进行微调，因此选

择基座模型时需要考虑任务的性质和数据集的特点。

如果您的监督任务是对话生成相关的，比如生成对话回复或对话情感分类等，那么选

择 ChatGPT 模型作为基座模型可能更合适。ChatGPT 模型在对话生成任务上进行了

专门的优化和训练，具有更好的对话交互能力。

然而，如果您的监督任务是单轮文本生成或非对话生成任务，那么选择 Base GPT 模

型作为基座模型可能更合适。Base GPT 模型在单轮文本生成和非对话生成任务上表

现良好，可以提供更准确的文本生成能力。

总之，基座模型的选择应该根据监督任务的性质和数据集的特点进行权衡。如果任务

是对话生成相关的，可以选择 ChatGPT 模型作为基座模型；如果任务是单轮文本生

成或非对话生成，可以选择 Base GPT 模型作为基座模型。

8. ? 领域模型微调指令&数据输入格式要求？

域模型微是指使用的通用言模型（如 BERT、GPT 等）对特定领域的数据进行微调，以

适应该领域的任务需求。以下是领域模型微调的指令和数据输入格式的要求：

指令：

1. 定任：明确所需的任型，如文本分、命名体、情感分析等。

2. 选择预训练模型：根据任务需求选择适合的预训练模型，如 BERT、GPT 等。

3. 准备微调数据：收集和标注与领域任务相关的数据，确保数据集具有代表性和

多样性。

4. 数据预处理：根据任务的要求，对数据进行预处理，例如分词、去除停用词、

词干化等。

5. 划分数据集：将数据集划分为训练集、验证集和测试集，用于模型的训练、验

证和评估。

6. 模型微调：使用预训练模型和微调数据对模型进行微调，调整超参数并进行训

练。

7. 模型评估：使用测试集评估微调后的模型的性能，计算适当的评估指标，如准

确率、召回率等。

8. 模型用：将微后的模型用于任，在新的入上行或生成。

数据入格式要求：

1. 入数据以文本形式提供，每个本一行。

2. 对于分类任务，每个样本应包含文本和标签，可以使用制表符或逗号将文本和

标签分隔开。

3. 对于生成任务，每个样本只需包含文本即可。

4. 对于序列标注任务，每个样本应包含文本和对应的标签序列，可以使用制表符

或逗号将文本和标签序列分隔开。

5. 数据集应以常见的文件格式（如文本文件、CSV 文件、JSON 文件等）保存，

并确保数据的格式与模型输入的要求一致。

根据具体的任务和模型要求，数据输入格式可能会有所不同。在进行领域模型微调之

前，建议仔细阅读所使用模型的文档和示例代码，以了解其具体的数据输入格式要

求。

9. ? 领域模型微调领域集评测建构？

建域集的程可以参考以下步：

1. 收集数据：首先需要收集与目域相关的数据。可以包括从互网上爬取文本数

据、使用已有的公开数据集或者通与域家合作来取数据。确保数据集具有代表

性和多性，能涵盖域中的各种情况和境。

2. 标注数据：对收集到的数据进行标注，以便用于评测模型的性能。标注可以根

据任务

型来进

类行，如文本分类

、命名实

体识、关系抽取等。标

别注过程可以

由人工标注或者使用自动化工具进行，具体取决于数据集的规模和可行性。

3. 划分数据集：将标注好的数据集划分为训练集、验证集和测试集。通常，训练

集用于模型的训练，验证集用于调整超参数和模型选择，测试集用于最终评估

模型的性能。划分数据集时要确保每个集合中的样本都具有代表性和多样性。

4. 指：根据任型和域需求，合适的指来估模型的

性能。例如，于文本分任，可以使用准确率、召回率、 F1 值等指标来

衡量模型的分性能。

5. 行：使用建好的集微后的模型行。将集入模型，取模型的果，并与注果行比，

算指。

6. 分析和改进：根据评测结果，分析模型在不同方面的表现，并根据需要进行模

型的改进和调整。可以尝试不同的超参数设置、模型架构或优化算法，以提高

模型的性能。

重复以上步骤，不断优化模型，直到达到满意的评测结果为止。

需要注意的是，构建领域评测集是一个耗时且需要专业知识的过程。在进行领域模型

微调之前，建议与领域专家合作，确保评测集的质量和有效性。此外，还可以参考相

关研究论

文和公开数据集，以获

取更多关于领

域评集构

测建的指导

和经。

验

10. ? 领域模型词表扩增是不是有必要的？

域模型的表增可以有助于提升模型在特定域任上的性能，但是否有必要取决于具体的

情况。以下是一些考因素：

1. 域特定：如果目域中存在一些特定的或，而些在通用的模型的表中没有覆盖

到，那么表增就是必要的。通将些域特定的添加到模型的表中，可以使模型更

好地理解和理些特定的。

2. 域特定上下文：在某些域任中，的含可能会受到特定上下文的影。例如，在医

学域中，同一个在不同的上下文中可能具有不同的含。如果域任中的上下文与

通用模型的数据中的上下文有大差异，那么表增可以帮助模型更好地理解和理

域特定的上下文。

3. 数据稀缺性：如果目标领域的训练数据相对较少，而通用预训练模型的词表较

大，那么词表扩增可以帮助模型更好地利用预训练模型的知识，并提升在目标

领域任务上的性能。

需要注意的是，词表扩增可能会增加模型的计算和存储成本。因此，在决定是否进行

表扩

词增时，需要综

合考虑域特定词

领的重要性、数据稀缺性以及计

汇算资源的限制

等因素。有时候，简的词

单表截断或者使用基于规的方法来处

则理领

域特定词也可

汇

以取得不错的效果。最佳的词表扩

增策略会因特定任务

和领域的需求而有所不同，建

根据具体情况进

议行评

估和实。

验

11. ? 如何自己的大模型？

训练自己的大模型？

自己的大模型通常需要以下步：

1. 数据收集和准：首先，需要收集与目任和域相关的大模数据集。

可以包括从互网上爬取数据、使用公开数据集或者与合作伴合作取数

据。然后，数据行理和清洗，包括去除噪声、理缺失、准化数

据等。

2. 模型设计和架构选择：根据任务的特点和目标，选择适合的模型架构。可以基

于已有的模型进行修改和调整，或者设计全新的模型。常见的大模型架构包括

深度神经网络（如卷积神经网络、循环神经网络、Transformer 等）和预训练

语言模型（如 BERT、GPT 等）。

3. 数据划分和预处理：将数据集划分为训练集、验证集和测试集。训练集用于模

型的训练，验证集用于调整超参数和模型选择，测试集用于最终评估模型的性

能。进行数据预理，如分词

处、编

、标

码化、特征提取等，以便输

记入到模型中。

4. 模型：使用集模型行。程中，需要合适的化算法、失函数和学率等超参数，并

行适当的整和化。

可以

使用GPU 或者分布式来加速程。

5. 模型调优和验证：使用验证集对训练过程中的模型进行调优和验证。根据验证

集的性能指，整模型的超参数、网或者其他相关参数，以提升模型

的性能。

6. 模型估和：使用集最好的模型行估和。算模型的性能指，如准确率、召回率、

F1 等，估模型的性能和泛化能力。

7. 模型部署和优化：将训练好的模型部署到实际应用中。根据实际需求，对模型

进行进一步的优化和调整，以提高模型的效率和性能。

需要注意的是，训练自己的大模型通常需要大量的计算资源和时间。可以考虑使用云

计算平台或者分布式训练来加速训练过程。此外，对于大模型的训练，还需要仔细选

合适的超参数和进

择行调，以避免过

优合或者欠拟

拟合的问

。

题

12. ? 训练中文大模型有？啥经验？

中文大模型，以下可能会有所帮助：

1. 数据理：于中文文本，常的理步包括分、去除停用、性注、拼音等。分是中文

理的基本步，可以使用成熟的中文分工具，如 jieba、pkuseg 等。

2. 数据增：中文数据集可能相有限，可以考使用数据增技来充数据

集。例如，可以使用同替、随机插入或除、句子重等方法来生

成新的本。

3. 字词级别的表示：中文中既有字级别的表示，也有词级别的表示。对于字级别

的表示，可以使用字符嵌入或者字级别的 CNN、RNN 等模型。对于词级别的表示，可以

使用预的词

练

训向量，如 Word2Vec、GloVe 等。

4. 模型：可以考使用已在大模中文料上好的模型作初始

模型，然后在目任上行微。例如，可以使用 BERT、GPT 等言

模型。可以利用大模中文料的信息，提升模型的表能力和泛化能

力。

5. 中文特定的任：于一些中文特定的任，例如中文分、命名体、情感分析等，可

以使

用一

些中文

特定

的工具

或

者模

型来

助

。例

如，

可

以用THULAC、LTP 等中文 NLP 工具包。

使

6. 算源

：大

模型需

要大

量的算

源

，括 GPU、内存和存。可以考使用云算平台或者分布式来加

包

速训练过程。

7. 超参数：于大模型的，超参数的和非常重要。可以使用网格搜索、随机搜索或

者基于化算法的自参方法来找最佳的超参数合。

需要注意的是，中文的复杂性和语义特点可能会对模型的训练和性能产生影响。因

此，在训练中文大模型时，需要充分理解中文语言的特点，并根据具体任务和需求进

行调

整和优化。同时，也可以参考相关的中文自然语言处

理研究和实

践经，以获

验取更多的指导和启。

发

13. ? 指令微调的好处？

在

大

模型

中行

指

令（Instruction Fine-tuning）的好处包括：

微

1. 个性化适：大模型通常是在大模通用数据上行的，具有大的言理解和表示能

力。但是，于某些特定任或域，模型可能需要更加个性化的适。通指令微，可

以在大模型的基上，使用特定任或域的数据行微，使模型更好地适目任的特

点

。

2. 提升性能：大模型的泛化能力通常很，但在某些特定任上可能存在一定的性能

瓶。通指令微，可以特定任的要求，整模型的参数和，以提升性能。例如，在

机器翻任中，可以通指令微来整注意力机制、解器等，以提高翻量。

3. 控制模型行为：大模型通常具有很高的复杂性和参数数量，其行为可能难以解

释和控制。通过指令微调，可以引入特定的指令或约束，以约束模型的行为，

使其更符合特定任务的需求。例如，在生成式任务中，可以使用基于指令的方

法来控制生成结果的风格、长度等。

4. 数据效率：大模型的训通常需要大量的数据，但在某些任务

练或领

域中，特定数据可能

相对

稀缺或难以获

取。通过

指令微调，可以利用大模型在通用数据上的预知识

练

训，结

合少量特定任务

数据进行微调，从而在数据有限的情况下获得更好的性能。

5. 提高训效率：大模型的训

练通常需要大量的计

练算资

源和时

。通过

间指令微调，可以在已经好的大模型

练

训

的基础上进行微调

，避免从头开始训

的时

练和资

间源消耗，从而提高训

效率。

练

指令微的好在于在大模型的基上行个性化整，以适特定任的需求和提升性能，同能省

和源消耗。

14. ? 预训练和微调哪个阶段注入知识的？

在大模型程中，知注入通常是在段行的。具体来，大模型的一般包括个段：和微。

在段，使用大模的通用数据模型行，以学言知和表示能力。一段的目是通自督学或其

他无督学方法，模型尽可能地捕捉到数据中的律和言，并生成丰富的言表示。

在段，模型并没有特定任行化，因此模型通常是通用的，

可以用于多个不同的任和域。

在

微

段，

使用

特

定任

的数

据

模型

行一

步

的和

整。

微

的目

是将模型中学到的通用知和能力迁移到特定任上，提升模型在目任

上的性能。

在微段，可以根据具体任的需求，整模型的参数和，以更好地适目任的特点。微通常

需要少的任数据，因模型已具了一定的言理解和泛化能力。

因此，知注入是在段行的，模型通大模通用数据的，学

到了丰富的言知和表示能力，后的微段提供了基。微段是在

模型的基上，使用特定任的数据行一步和整，以提升性能。

15. ? 想让模型学习某个领域或行业的知识，是应该预训练还是应该微调？

如果你想让大语言模型学习某个特定领域或行业的知识，通常建议进行微调而不是预

训练。

段是在大模通用数据上行的，旨在模型提供通用的言理解和表示能

力。模型通常具有的泛化能力，可以适用于多个不同的任和域。然

而，由于模型是在通用数据上行的，其特定域的知和可能了

解

有

限。

因此，如果你希望大言模型能学某个特定域或行的知，微是更合适的

。在微段，你可以使用特定域的数据模型行一步和

整，以使模型更好地适目域的特点和需求。微可以帮助模型更深入地理解特

定域的、概念和境，并提升在域任上的性能。

微通常需要少的任数据，因模型已具了一定的言理解和泛化能力。通微，你可以在模

型的基上，利用特定域的数据行有性的整，以使模型更好地适目域的需求。

总之，如果你希望大语言模型学习某个特定领域或行业的知识，建议进行微调而不是

预训练。微调可以帮助模型更好地适应目标领域的特点和需求，并提升在该领域任务

上的性能。

16. ? 多任如何微模型？

轮对话任务如何微调模型？

微大言模型用于多任，可以采用以下步：

1.数据准：收集或生成与目任相关的数据集。数据集包含多的史、当前回合的入

和的回答。

2. 模型：一个合适的模型作基模型。例如，可以 GPT、BERT 等

大

型言

模型

作

基模

型。

3. 任特定：了适多任，需要在模型上添加一些任特定

的。些可以用于理史、上下文理解和生成回答等任相关的操

作。

4. 微程：使用多数据集模型行微。微的程似于督学，通最小化模型在集上的失函

数来化模型参数。可以使用常的化算法，如随机梯度下降（SGD）或 Adam。

5. 超参数整：微程中需要合适的学率、批次大小、数等超参数。可以通交叉或其

他参方法来最佳的超参数合。

6. 估和：使用集或开集微后的模型行估。可以算模型在多任上的指，如准确率、

召回率、F1 分数等，以最佳模型。

7. 推理和部署：在微调后，可以使用微调后的模型进行推理和部署。将输入的多

轮对话输入给模型，模型将生成对应的回答。

需要注意的是，微大言模型用于多任，数据集的量和多性模型性能至关重要。确保数

据集包含各种景和多的史，以提高模型的泛化能力和适性。

此外，可以使用一些技巧来增模型性能，如数据增、抗、模型融合等。

些技巧可以一步提高模型在多任上的表。

17. ? 微调后的模型出现能力劣化，灾难性遗忘是怎么回事？

灾难性遗忘（ Catastrophic Forgetting）是指在模型微程中，当模型在新任上行，可能会

忘记之前学习到的知识，导致在旧任务上的性能下降。这种现

象常见

于神经

网络模型的迁移学习

或连学习

续景中。

场

在微大言模型，灾性忘可能出的原因包括：

1.数据分布差异：微程中使用的新任数据与数据或旧任数据的分布存在差异。如

果新任的数据分布与数据差异大，模型可能会度整以适新任，致旧任上的性能

下降。

2. 参数更新冲突：微调过程中，对新任务进行训练时，模型参数可能会被更新，

导致之前学习到的知识被覆盖或丢失。新任务的梯度更新可能会与旧任务的梯

度更新发生冲突，导致旧任务的知识被遗忘。

了解决灾性忘，可以以下方法：

1. 重播缓冲区（Replay Buffer）：在微调程中，使用一个缓

过冲区来存储

旧任务的样

本，然后

将旧任的本与新任的本一起用于。可以保留旧任的知，少灾性忘的生。

2. 弹性权重共享（Elastic Weight Consolidation）：通引入正化，限制模型参数

的变

范围

动，以保护

之前学习到的知识。这种方法可以在微调程中平衡新任务

过和旧任务之间

的重要性。

增量学（ Incremental Learning）：将微调

程分为

过多个阶

段，每个阶段只微调

一小部分参数。这

可

样

以逐步引入新任务，减少参数更新的冲突，降低灾难性遗

忘的风。

险

4. 多任务学习（Multi-Task Learning）：在微程中，同多个相关任，以提高模型的泛化能力

和抗遗忘能力。通过共享模型参数，可以在不同任务之间

知识

递

传，减

少灾难

性遗忘的影响

。

综上所述，灾难性遗忘是在模型微调过程中可能出现的问题。通过合适的方法和技

术，可以减少灾难性遗忘的发生，保留之前学习到的知识，提高模型的整体性能。

18. ? 微调模型需要多大显存？

微大言模型所需的存大小取决于多个因素，包括模型的大小、批次大小、序列度和程

中使用的化算法等。

于

大

型言

模如GPT-2、GPT-3 等，它们通常具有数亿或数十亿个参数，因此需要大量的显存来

型

，

存模型参数和梯度。一般来，微些大型言模型需要至少 16GB 以上的显存。

此外，批次大小和序列度也会存需求生影。大的批次大小和的序列

度会占用更多的存。如果存不足以容整个批次或序列，可能需要小批次大

小或序列度，或者使用分布式等策略来解决存不足的。

需要注意的是，显存需求还受到训练过程中使用的优化算法的影响。例如，如果使用梯度累积

（Gradient Accumulation）来增加批次大小，可能需要更大的存来存累的梯度。

综上所述，微调大语言模型所需的显存大小取决于模型的大小、批次大小、序列长度

和训

程中使用的优

过

练化算法等因素。在进行微调

之前，需要确保显

存足够

大以容纳

模型和训

程中的数据。如果显

过

练存不足，可以考虑小批次大小、序列长

减度或使用

分布式训

等策略来解决显

练存不足的问

。

题

19. ? 大模型 LLM 进行 SFT 操作的时候在学习什么？

在

大

言模

型LLM）进行有监督微调（ Supervised Fine-Tuning），模型主要学以下内容：

（

任特定的：在有督微中，模型会根据定的任，学相

的或目。例如，于文本分任，模型会学将入文本映射到正

确的。

2. 上下文理解和言模式：大言模型在段已学到了大量的言知和模式。在有督微

中，模型会利用些学到的知来更好地理解任相关的上下文，并捕捉言中的各种

模式和律。

3. 特征提取和表示学：微程中，模型会通学任相关的表示来提取有用的特征。些

特征可以帮助模型更好地区分不同的或行其他任相关的操作。

4. 任相关的化：在有督微中，模型会通反向播和化算法来整模型参数，使得模型

在定任上的性能最化。模型会学如何通梯度下降来最小化失函数，从而提高任

的准确性或其他性能指。

总的来说，有监督微调阶段主要通过任务特定的标签预测、上下文理解和语言模式、

特征提取和表示学习以及任务相关的优化来进行学习。通过这些学习，模型可以适应

特定的任务，并在该任务上表现出良好的性能。

20. ? 预训练和 SFT 操作有什么不同

大

言

模型

的和

有

督（ Supervised Fine-Tuning）是个不同的操作，它在目、数据和方式等方面存在

微

一些区。

1. 目：的目是通无督学从大模的文本料中学言模型的表示能力和言知。的目通常

是通自我任，例如掩言模型（Masked Language Model，MLM）或下一句预测（ Next

Sentence Prediction，NSP）等，来模型。

有督微的目是在特定的任上行，例如文本分、命名体等。在有督微中，模型会

利用段学到的言表示和知，通有督的方式整模型参数，以适特定任的要求。

2. 数据：在段，大言模型通常使用大模的无文本数据行，例如基百科、网文本

等。些数据没有特定的或任信息，模型通自我任来学言模型。

在有监督微调中，模型需要使用带有标签的任务相关数据进行训练。这些数据

通常是人工标注的，包含了输入文本和对应的标签或目标。模型通过这些标签

来进行有监督学习，调整参数以适应特定任务。

3. 方式：段通常使用无督的方式行，模型通最大化任的目函数来学言模型的表示

能力。

有督微段使用有督的方式行，模型通最小化失函数来学任相关的特征和模式。

在微段，通常会使用模型的参数作初始参数，并在任相关的数据上行。

llm微调面

开通会员本次下载免费

开通网站会员享专属特权

热门资源

推荐资源

llm微调面

开通会员 本次下载免费

开通网站会员 享专属特权

热门资源

推荐资源

开通会员本次下载免费

开通网站会员享专属特权