您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center   模型库  
会员   
   
基于 UML 和EA进行分析设计
7月30-31日 北京+线上
大模型核心技术RAG、MCP与智能体实践
8月14-15日 厦门
图数据库与知识图谱
8月21日-22日 北京+线上
     
   
 
 订阅
彻底搞懂深度学习-从神经网络入门(动图讲解)
 
作者:AllenTang
  46  次浏览      3 次
 2025-7-4
 
编辑推荐:
本文主要介绍了深度学习-从神经网络入门相关内容。希望对你的学习有帮助。
本文来自于微信公众号架构师带你玩转AI ,由火龙果软件Linda编辑,推荐。

深度学习“三巨头”——Geoffrey Hinton、Yann LeCun 和 Yoshua Bengio,为推动学术界更广泛地接纳深度学习,将 20 世纪 40 至 50 年代就已问世的神经网络重新包装,提出“深度学习”(Deep Learning)这一概念,本质上即深度的神经网络。

一、感知机(Perceptron)

感知机于1957年提出的仅含输入层与输出层、通过加权求和加偏置后经激活函数输出二分类结果的早期神经网络模型。

(1)没有隐藏层:只有输入层和输出层,2层网络结构。

(2)线性运算:接收输入层的信号,通过加权求和并加上偏置值。

(3)激活函数:通过一个激活函数(如阶跃函数)将结果转化为输出信号。

二、前馈神经网络(Feedforward Neural Network)或者多层感知机(Multilayer Perceptron, MLP)

前馈神经网络(FFNN)又名多层感知器 (MLP),是神经网络模型中最常见的一种。FFNN的基本结构包括输入层、输出层和至少一层或多层的隐藏层。其各层神经元分层排列,每个神经元只与前一层的神经元相连,接收前一层的输出并传递给下一层,各层之前没有反馈。

(1)输入层:接收输入特征,是数据的入口。

(2)隐藏层:位于输入层和输出层之间,用于提取特征与整合。

(3)输出层:给出最终的预测结果。

FFNN模型表达式:FFNN(x) = max(0, xW1 + b1)W2 + b2 (2)

在前馈神经网络中,权重(W)和偏置(b)是两个非常重要的参数,它们决定了神经元之间的连接强度和神经元的输出。(权重(W)和偏置(b)刚开始随机初始化,后续通过模型训练从数据中不断学习更新)

三、前馈神经网络(FFNN)的学习

前馈神经网络(FFNN)通过随机初始化参数,利用反向传播算法计算梯度,并采用优化算法如随机梯度下降来迭代更新参数,以最小化损失函数并提升模型性能。

模型学习的本质就是模型训练,通过不断训练、验证和调优,让模型达到最优的一个过程。(下面的流程对于初学者有点懵逼,可以借助Claude生成一个模型训练代码,找一个云算力平台实践下模型训练,打印下模型训练过程中损失曲线的变化,直观的感受下模型是如何从数据中学习)

(1)参数初始化:神经网络的参数(包括权重和偏置)在训练开始前会被随机初始化。

(2)前向传播:在训练过程中,输入数据通过神经网络进行前向传播,计算出模型的输出。这个过程涉及将输入数据与每一层的权重和偏置进行线性组合,然后应用激活函数来引入非线性。

(3)反向传播:利用反向传播算法来计算损失函数相对于模型参数的梯度。这个过程涉及从输出层开始,逐层计算损失对参数的偏导数,并将这些梯度信息从输出层传播回输入层。

(4)参数更新:得到梯度后,使用优化算法(如随机梯度下降SGD、Adam、RMSprop等)来更新模型的参数。优化算法根据计算出的梯度来调整模型参数,以最小化损失函数。

(5)迭代训练:上述步骤(从前向传播到参数更新)会反复进行,直到模型在验证集上的性能达到满意的水平,或者达到预设的训练轮数(epochs)。

前馈神经网络(FFNN)从数据中学习的训练流程会贯穿整个深度学习,里面涉及的专业术语(前向传播、反向传播、激活函数、梯度下降、Adam和AdaGrad等其它优化器)都会在后面进行详细讲解。

四、前馈神经网络(FFNN)的应用

感知机(Perceptron)可以解决线性二分类问题,而现实世界中的复杂问题都是非线性多分类问题。

前馈神经网络(FFNN)通过隐藏层将神经元组合在一起,能够形成复杂的决策边界,进而处理现实世界中复杂的非线性问题。

前馈神经网络(多层感知机MLP)在Transformer中通过非线性变换与特征整合,辅助Attention模块处理信息。(FFNN在Transformer中的应用会在后面进行详细讲解)

(1)非线性变换:MLP通过引入激活函数(如ReLU)提供非线性变换,这有助于模型捕获输入数据中的复杂模式。

(2)特征提取与整合:MLP进一步处理和转换注意力机制提取的特征,提取和整合更多有用的信息,使其能够学习更加复杂的函数关系。

 
   
46 次浏览       3
相关文章

基于图卷积网络的图深度学习
自动驾驶中的3D目标检测
工业机器人控制系统架构介绍
项目实战:如何构建知识图谱
 
相关文档

5G人工智能物联网的典型应用
深度学习在自动驾驶中的应用
图神经网络在交叉学科领域的应用研究
无人机系统原理
相关课程

人工智能、机器学习&TensorFlow
机器人软件开发技术
人工智能,机器学习和深度学习
图像处理算法方法与实践

最新活动计划
基于 UML 和EA进行分析设计 7-30[北京]
大模型RAG、MCP与智能体 8-14[厦门]
软件架构设计方法、案例与实践 7-24[北京]
用户体验、易用性测试与评估 7-25[西安]
图数据库与知识图谱 8-23[北京]
需求分析师能力培养 8-28[北京]
 
 
最新文章
AIGC技术与应用全解析
详解知识图谱的构建全流程
大模型升级与设计之道
自动驾驶和辅助驾驶系统
ROS机器人操作系统底层原理
最新课程
人工智能,机器学习和深度学习
人工智能与机器学习应用实战
人工智能-图像处理和识别
人工智能、机器学习& TensorFlow+Keras框架实践
人工智能+Python+大数据
成功案例
某综合性科研机构 人工智能与机器学习
某银行 人工智能+Python+大数据
北京 人工智能、机器学习& TensorFlow
某领先数字地图提供商 Python数据分析
中国移动 人工智能、机器学习和深度学习