第六讲

百科大全

更新时间：2025-10-06 09:23:2139

admin管理员组
文章数量:1794759

第六讲

1、卷积神经网络（CNN）与循环神经网络(RNN)的简单对比:

CNN:借助卷积核（kernel）提取特征后，送入后续网络（如全连接网络Dense）进行分类、目标检测等操作。CNN借助卷积核从空间维度提取信息，卷积核参数空间共享。

RNN：借助循环核（cell）提取特征后，送入后续网络进行预测等操作。RNN借助循环核从时间维度提取信息，循环核参数时间共享。

循环核

循环核具有记忆力，通过不同时刻的参数共享，实现了对时间序列的信息提取。

每个循环核有多个记忆体，上图中多个小圆柱就是记忆体。记忆体内存储着每个时刻的状态信息ht。我们可以设定记忆体的个数从而改变记忆容量，当记忆体个数被指定、输入xt和输出yt维度指定，那么周围的待训练参数的维度也就被限定了。

前向传播时，记忆体内存储的状态信息ht在每个时刻都被刷新，而三个参数矩阵Wxh、Whh、Why和两个偏置项bh、by自始至终都是固定不变的。

反向传播时，三个参数矩阵Wxh、Whh、Why和两个偏置项bh、by由梯度下降法更新。

循环核按时间步展开

将循环核按时间步展开，就是把循环核按照时间轴t方向展开，如下图：

每个时刻记忆体状态信息ht被刷新，记忆体周围的参数矩阵和两个偏置项固定不变，我们训练优化的就是这些参数矩阵。训练完成后，使用效果最好的参数矩阵执行前向传播，然后输出预测结果。

由上图可以看出，循环神经网络就是借助循环核实现时间特征提取后把提取到的信息送入全连接网络，从而实现连续数据的预测。

循环计算层：向输出方法生长

在RNN中，每个循环核构成一层循环计算层，循环计算层的层数是向输出方向增长的。如下图

左边的网络中有一个循环核，构成了一层循环计算层；中间的网络有两个循环核，构成了两层循环计算层；右边的网络有3个循环核，构成了三个循环计算层。

原始RNN的问题：

RNN面临的较大的问题是无法解决长跨度依赖问题，即后面节点相对于跨度很大的前面时间节点的信息感知能力太弱。

如下图：左上角的句子中sky可以由较短跨度的词预测出来，而右下角句子中的French与较长跨度之前的France有关系，即长跨度依赖，比较难预测。

长跨度依赖的根本问题在于：多阶段的反向传播后会导致梯度消失、梯度爆炸。可以使用梯度截断去解决梯度爆炸问题，但无法轻易解决梯度消失问题。由此提出了LSTM。

LSTM

为了解决RNN长期依赖问题，LSTM（Long Short Term Memory）长短记忆网络，由Hochreiter & Schmidhuber 于 1997年提出，通过门控单元很好的解决了RNN长期依赖问题。

因为LSTM使用门（gate）机制对信息的流通和损失进行控制。

如上图，LSTM引入了三个门限：输入门it、遗忘门ft、输出门ot；引入表征长期记忆的细胞态Ct；引入了等待存入长期记忆的候选态Ct波浪号。

三个门限都是当前时刻的输入特征Xt和上个时刻的短期记忆ht-1的函数，分别表示：

输入门（门限）：决定了多少比例的信息会被存入当前细胞态；

遗忘门（门限）：将细胞态中的信息选择性的遗忘；

输出门（门限）：将细胞态中的信息选择性的进行输出；

三个公式中Wi、Wf、Wo是待训练参数矩阵，bi、bf、bo是待训练偏置项。σ为sigmoid激活函数，它可以使门限的范围在0到1之间。

记忆体ht，表征短期记忆，是当前细胞态经过输出门得到的。
候选态表示归纳出的待存入细胞态的新知识，是当前时刻的输入特征Xt和上个时刻的短期记忆ht-1的函数
细胞态Ct表示长期记忆，它等于上个时刻的长期记忆Ct-1通过遗忘门的值和当前时刻归纳出的新知识Ct波浪号通过输入门的值之和。

本文标签：第六讲

版权声明：本文标题：第六讲内容由林淑君副主任自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.xiehuijuan.com/baike/1700060603a394747.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

写会百科网

第六讲

第六讲

更多相关文章

SPSS第六讲

第六讲

发表评论

推荐文章

分支与循环（上）【五一快乐，朋友们】

初识编程语言·C语言

【题目训练】二叉树的创建&&遍历（递归&&非递归）

【Spring】“请求“ 之后端传参重命名，传递数组、集合，@PathVariable，@RequestPart

来了，使用YOLOv11目标检测教程

热门文章

eCapture抓包框架

【AI绘画】Midjourney前置指令imagine与单图指令详解

【AIGC】ChatGPT提示词Prompt助力高效文献处理、公文撰写、会议纪要与视频总结

【C++】基础类之日期类

数据结构——堆的实现（详解）

Vue 中 watch 和 watchEffect 的区别

MySQL：表的设计原则和聚合函数

MDC和Compose: 轮播图的两种实现

c#使用Linq的Distinct()方法去重

ChatGPT Prompt工作原理解析：让机器也能聪明对话

最新文章

Linux系统之jobs命令的基本使用

手把手教学！简单上手“AI复活”技术

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

JVM专题

学会5个图表，让数据分析简洁高效

写“藤”的作文1200字

有关于进步的作文

幼儿园见习报告

语数英寒假作业上册答案五年级

伊索寓言经典语词句摘抄