您的当前位置：首页【动手学深度学习】线性神经网络

【动手学深度学习】线性神经网络

来源：爱问旅游网

线性神经网络

线性回归

问题：房价预测

定义特征
定义模型
- 参数：权重、偏差
定义损失函数
训练模型

线性模型

给定n维输入
n维权重和一个标量偏差
输出是输入的加权和。
线性模型可以看做是单层神经网络
- n维输入层
- 输出层

神经网络源于神经科学，就像神经元之间的输入、处理、输出一样。

衡量预估质量

比较真实值和预估值
平方损失：衡量没有准确猜中真实值带来的损失

训练数据

收集一些数据点来决定参数值（权重和偏差），也就是训练数据。
训练数据越多越好。
训练样本X，真实值y

参数学习

训练损失
最小化损失来学习参数

显示解

将偏差加入权重
损失是凸函数，最优解满足梯度为0

总结

线性回归是对哪位输入的加权，外加偏差
使用平方损失来衡量预测值和真是值的差异
线性回归有显示解
线性回归可以看做单层神经网络

基础优化算法

梯度下降

挑选一个初始值
重复跌倒参数t = 1,2,3…
- 沿梯度方向增加损失函数值
- 学习率：步长的超参数
  - 选择学习率
    - 不能太大，不能太小

小批量随机梯度下降

在整个训练集上算梯度太贵
- 一个深度神经网络模型可能需要数分钟至数小时
随机采样b个样本
- 选择批量大小，不能太小，计算量太小不能太大。

总结

梯度下降通过不断沿着反梯度方向更新参数求解。
小批量随机梯度下降是深度学习默认的求解算法
两个重要的超参数：学习率，学习率

线性回归的从0开始实现

包括数据流水线、模型、损失函数和小批量随机梯度下降优化器。
具体代码直接看jupyter，不写在markdown文档

生成数据集

将根据带有噪声的线性模型构造一个人造数据集,生成一个包含1000个样本的数据集，每个样本包含从标准正态分布中采样的2个特征,任务是使用这个有限样本的数据集来恢复这个模型的参数。
w = [2,3.4]^T, b = 4.2

使用低维数据，这样可以很容易地将其可视化。
结果：features（x）,labels(y)

读取数据

接受批量大小、特征矩阵和标签向量作为输入，随机生成batch_size的小批量
yield 表示每次调用，返回一个x,一个y

定义模型

定义初始化模型参数 w,b
定义模型。
定义损失函数：均方损失
定义优化算法：小批量随机梯度下降

训练过程

设计超参数
一个epoch里：
读一个batch的数据，然后调用模型预测。
将结果和标签算loss
梯度下降
调用优化算法更新参数。
评价这个epoch

简洁实现

用torch框架。
模型用预定义好的层。
loss用MSELoss类，SGD实例化即可。
训练用trainer。

Softmax

回归 vs 分类

回归估计一个连续值，输出一个单连续数值，范围是自然数区间。损失值是预测值和真实值的区别。
分类预测一个离散类型。通常有多个输出，输出i是预测第i类的置信度。

从回归到多类分类——均方损失

对类别进行一位有效编码
使用均方损失训练
最大值作为预测

其实，分类问题并不关心预测值，关心的是正确类别的预测值是不是特别大。

从回归到多类分类——无校验比例

一位有效编码
最大值为预测
需要更置信的识别正确类：大的余量值
输出匹配概率
Softmax操作子，结果非负，且和为1。
那么结果就是一个概率。
概率的区别作为损失
真实类概率为1.

Softmax和交叉熵损失

交叉熵常用来衡量两个概率的区别。
将它作为损失。
只关心正确类的概率。
其梯度是真实概率和预测概率的区别

总结

Softmax回归是一个多分类问题。
使用Softmax操作子得到每个类的预测置信度
使用交叉熵来衡量预测和标号的区别

损失函数

L2 Loss

方差

L1 Loss

真实值-预测值的绝对值

Huber’s Robust Loss

真实值和预测值相差较大时，用L2，使得梯度均匀；反之，用L1
好处：优化过程是平滑的

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文