Pre-training¶
约 212 个字 预计阅读时间 1 分钟
1.什么是预训练?¶
Pre-training是指在一个较小的、特定任务的数据集上进行微调之前,在一个大数据集上训练一个模型的过程。这个初始阶段允许模型从数据中学习一般的特征和表征,然后可以针对具体任务进行微调。
简单来说就是让模型具备通用能力。
数据:海量无标注/弱标注数据(如互联网文本、图像库)。
2.LLM的基本结构¶
2.1 Alpaca¶
2.2 Vicuna¶
2.3 前置归一化¶
pre-norm, post-norm, RMSNorm, LayerNorm