8. 循环神经网络¶

到目前为止，我们遇到了两种类型的数据：表格数据和图像数据。对于后者，我们设计了专门的层来利用其中的规律。换句话说，如果我们对图像中的像素进行调换，就很难对其内容进行推理。这些内容看起来很像模拟电视时代的雪花屏。

最重要的是，到目前为止，我们默认我们的数据都来自某种分布，并且所有样本都是独立同分布的（i.i.d.）。不幸的是，大多数的数据并非如此。例如，文章中的单词是按顺序写的，如果打乱它们的顺序，就很难理解它们组成的意思。同样，视频中的图像帧、对话的音频信号以及网站上的浏览行为都是有顺序的。因此，我们可以合理地假设，针对这类数据的专门模型会更好地描述它们。

有时我们希望不仅可以接收一个序列作为输入，而是可以期望继续猜测该序列。例如，任务可以是继续预测\(2, 4, 6, 8, 10, \\ldots\)。这在时间序列分析中是相当常见的，可以用来预测股市、患者的体温曲线或赛车所需的加速度。同样，我们需要能够处理这些数据的模型。

简言之，卷积神经网络可以有效地处理空间信息，循环神经网络（RNN）的设计可以更好地处理序列信息。循环神经网络引入状态变量来存储过去的信息以及当前的输入，以确定当前的输出。

许多使用循环网络的例子都是基于文本数据的。因此，我们将在本章中重点介绍语言模型。在对序列数据进行更正式的回顾之后，我们将介绍文本预处理的实用技术。接下来，我们将讨论语言模型的基本概念，并将此讨论作为循环神经网络设计的灵感。最后，我们描述了循环神经网络的梯度计算方法，以探讨训练此类网络时可能遇到的问题。