费曼讲解大模型参数微调—

费曼讲解大模型参数微调——小白也能看懂

作者：通用AI科技工作室

613 次浏览

6 次

2025-4-18

编辑推荐:

本文介绍了大模型参数微调相关内容。希望对你的学习有帮助。
本文来自于微信公众号学贵专精正，由火龙果软件Linda编辑，推荐。

故事是这样的

人物组（1）：老师、学生。

人物组（2）爸爸、妈妈、我，妹妹。

任务一：妈妈监管我的学习，我学习理科，我主要就是寻找窍门，提升解题的技巧和方法，想在考试中获得高分，这样妈妈就会多给我零花钱。

任务二：爸爸监管妹妹的学习，妹妹学习文科。妹妹主要就是背，就是把书本上学到的知识都背下来，通过记忆内容来学习。

任务二: 爸爸监管妹妹的文科学习

全家大脑和大语言模型的关系

大家都使用过ChatGPT，deepseek，我们只要简单的对大模型网页输入一个问题，就会马上得到答案。所以，输进去的是文字，大模型回答的也是文字。那么大模型这个大脑是咋想完就说出答案的呢？我们先看下面这个图，主要是蓝色的步。

• 第一步，从左边开始，我们给大模型说一句话：今天我们来开会。

• 第二步，每一个汉字都被编成了电报码，编码的办法就是让每个汉字自己的位置是1，其他位置是0。这些电报码被逐个送入到大模型的核心计算单元——神经元里。

• 第三步，大模型的神经元（计算单元）根据输入的电报码，逐个计算出新的电报码，

• 第四步，这些个电报码又被破译成汉字。

• 第五步，被破译的汉字，逐个从大模型输出：大家很高兴，这就是大模型对我们提给他的问题的答案。

因为大语言模型里的神经元的数量是很大的，大语言模型使用数量巨大的神经元来模拟人脑的几百亿个神经元。这样，大语言模型就类似人脑。而每个神经元里其实都是一个线性或者非线性的计算公式，这个公式里包含着公式系数，如。几百亿个神经元，就是几百亿个类似的公式，通过加减乘除或者指数方式拼成了一个更加巨大的公式，然后就有了几百亿甚至上千亿个系数。这些系数就是大模型的参数。

这不是一个严谨的说法，但我们只要知道大语言模型是由公式和公式系数构成的就好。公式决定了大语言模型思考问题的规律，也就是大语言模型是按照数学计算公式来思考问题的，而系数决定了大模型思考问题的配置，思考方式+思考配置，最终确定了大语言模型的输出内容。

学生如何跟着老师学知识——小模型参数学习/蒸馏范式

我们知道了大语言模型可以思考问题，但是，大语言模型怎么学习（训练）呢？其实大语言模型学习和我们人类学习的方法差不多，只不过大语言模型学习的方法更加笨拙一些，不如人类的学习方法灵活。人类就是想学就学，碰见什么东西学什么？从来不固定的学习方法，但是机器不一样，谁让它是机器呢。

下图展示了一个学生（知识少的小语言模型）如何跟着老师（知识多的大语言模型）学知识的过程。

①右图：模型参数学习/蒸馏范式。从下往上看。

如果一个没有多少知识的学生想要学到更多的知识，他或者跟着老师学，或者自己学。跟着老师学最后的结果就是老师头脑里的知识被迁移到了学生的头脑（小语言模型），自己学，其实也是要读书，书也是曾经的老师们创造的知识。

无论怎么样，都可以按照图中的方法，假如学生准备学习数学知识，那么可以找很多精题试卷，分别让学生作答，老师作答。将作答的试卷结果进行比较，必将比较的结果以不同的方式反馈给学生。

②左图：这里反馈的方法不同，直接决定了学生学习的具体行动方式和思路，从上往下看。

• 假如妹妹跟着爸爸学习。妹妹每天背诵，爸爸负责检查，如果爸爸每次反馈的方法是：比较妹妹回答的内容和标准答案的差异，如果差异大就惩罚妹妹，差异小就惩罚少，那么这就是用监督学习方法。妹妹最好的学习方法就是将过程和答案都背下来，死记硬背，不用考虑其他。这种学习过程本质是妹妹（小模型）记忆强化，背的越多，学的越好，非常适合文科内容的学习，尤其是常识性的问题。现实中常见的早期的ChatGPT，以及DeepSeek-V3、llama等等，都属于这类模型。就是见过的，就知道，没见过的，就很难了。再举一个例子，首先记住1-10这十个数字，如果要计算2+3=？则必须见过2+3=5这道题，如果没记住，那么即便是你会2+2=4，也大概率不会2+3=5；所以，监督学习，优势在记忆，推理能力很弱或早期的模型就没有（后来毕竟改进了）。

• 假如我跟着妈妈学习。我每天学习，妈妈负责检查。如果妈妈每次反馈的方法是：告诉我考试成绩和老师考试成绩的差异，如果差异变大，我就不能得到更多的零花钱，如果差异变小，那么就可以得到更多的零花钱，那么就是用强化学习方法。给我分数差异的变化，我就知道我是否进步了，并且这种学习方法，我的目标性不是像监督学习那样，一定要背下来某个东西，我才能学习好，而是我只要分数进步大，我就是进步了，就可以得到更多的零花钱。那么此时，我的学习技巧？其实就是我的自由，这种情况，我可以选择背诵，但是我也可以选择逻辑推理。如果我学习理科，那我肯定更愿意学习推理，因为背诵题目是背不完的，数理化的题目是无穷无尽的。我只要寻找更好的推理技巧，掌握了数理化的原理，以不变应万变，我的分数相反可以提升的更快；但如果学习文科，则必须要背诵、记忆，反倒是非常消耗时间。同样举计算2+3=？的例子，首先记住1-10这十个数字，如果要计算2+3=？我即便从来没见过2+3=5这道题，我只要会推理1+1=2，1+1+1=3，那么2+3可以被分解为1+1+3→1+1+1+1+1+1，所以=5。所以强化学习的方法，强推理能力，一般记忆能力。典型：R1 O1~O3。