欠拟合

  • 数据过于复杂,但是神经网络模型过于简单

underFitting

  • 无论训练多久,训练损失始终降不下去

underFitting

过拟合

  • 模型过于复杂,把训练集噪声数据都拟合进去

overFitting

  • 过拟合损失曲线,红色代表验证集,蓝色代表训练集

overFitting

overFitting

实操模拟 欠拟合&过拟合

  • 加载带有噪音的二分类数据集(训练集与验证集)
  • 使用不同神经网络演示 过拟合&欠拟合
  • 过拟合应对法:早停法、权重衰减、丢弃法

加载带有噪音的二分类数据集(训练集与验证集)

脚本原理

生成正态分布(高斯分布)的样本数据

1
2
3
4
5
6
7
8
9
10
11
function normalRandom(mean = 0, variance = 1) {
let v1, v2, s;
do {
v1 = 2 * Math.random() - 1;
v2 = 2 * Math.random() - 1;
s = v1 * v1 + v2 * v2;
} while (s > 1);

let result = Math.sqrt(-2 * Math.log(s) / s) * v1;
return mean + Math.sqrt(variance) * result;
}

正态分布两边低的数据看作噪音数据,中间高的数据视为正常数据

通过调整方差 调整噪音量

用脚本生成带有噪音的二分类数据集

1
2
3
4
5
6
7
8
import * as tf from '@tensorflow/tfjs';
import * as tfvis from '@tensorflow/tfjs-vis';
import { getData } from './data';

window.onload = async () => {
const data = getData(200, 3);

}

可视化数据集

1
2
3
4
5
6
7
8
9
10

tfvis.render.scatterplot(
{ name: '训练数据' },
{
values: [
data.filter(p => p.label === 1),
data.filter(p => p.label === 0),
]
}
);

可视化结果

使用不同神经网络演示 过拟合

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
const data = getData(200, 2);

tfvis.render.scatterplot(
{ name: '训练数据' },
{
values: [
data.filter(p => p.label === 1),
data.filter(p => p.label === 0),
]
}
);

const model = tf.sequential();

//第一层隐藏层
model.add(tf.layers.dense({
units: 10,
inputShape: [2], //长度为2的一维数组
activation: "tanh",
}));

//输出层
model.add(tf.layers.dense({
units: 1,
activation: 'sigmoid'
}));

//设置损失函数&优化器
model.compile({
loss: tf.losses.logLoss,
optimizer: tf.train.adam(0.1)
});

const inputs = tf.tensor(data.map(p => [p.x, p.y]));
const labels = tf.tensor(data.map(p => p.label));

await model.fit(inputs, labels, {
validationSplit: 0.2,
epochs: 200,
callbacks: tfvis.show.fitCallbacks(
{ name: '训练效果' },
['loss', 'val_loss'],
{ callbacks: ['onEpochEnd'] }
)
});

过拟合训练结果

过拟合应对法:早停法

在训练出现过拟合时及时手动停止训练

过拟合应对法:权重衰减法(设置L2正则化

将过于复杂的模型权重降低

1
2
3
4
5
6
model.add(tf.layers.dense({
units: 10,
inputShape: [2], //长度为2的一维数组
activation: "tanh",
kernelRegularizer: tf.regularizers.l2({ l2: 1 }) //设置权重衰减
}));

权重衰减法训练结果

过拟合应对法:丢弃法

在隐藏层和输出层之间添加一个丢弃层

1
2
//添加丢弃层,降低训练集复杂度
model.add(tf.layers.dropout({ rate: 0.9 }));

丢弃法训练结果


代码仓库