检查点

保存模型并不限于训练模型后,在训练模型之中也需要保存,因为Tensorflow训练模型时难免会出现中断的情况,我们自然希望能够将训练得到的参数保存下来,否则下次又要重新训练。这种在训练中保存模型,习惯上称之为保存检查点。

tf.train.get_checkpoint_state(checkpoint_dir,latest_filename=None):该函数表示如果断点文件夹中包含有效断点状态文件,则返回该文件。参数说明:

​ checkpoint_dir:表示存储断点文件的目录

​ latest_filename=None:断点文件的可选名称,默认为”checkpoint”

通过添加检查点,可以生成载入检查点文件,并能够指定生成检查文件的个数。saver中的max_to_keep=1,表面最多只保存一个检查点文件。

1
saver=tf.train.Saver(max_to_keep=1)

对checkpoint文件进行加载的第一种方法

1
2
3
cpkt = tf.train.get_checkpoint_state(savedir)
if cpkt and cpkt.model_checkpoint_path:
  saver.restore(sess2, cpkt.model_checkpoint_path)

上面代码位置:

第二种方法

1
2
kpt = tf.train.latest_checkpoint(savedir)
saver.restore(sess2, kpt)

我们还可以用更加简便的方法进行检查点的保存,tf.train.MonitoredTrainingSession()函数,该函数可以直接实现保存载入检查点模型的文件,与前面的方法不同的是,它是按照训练时间来保存检查点的,可以通过指定save_checkpoint_secs参数的具体秒数,设置多久保存一次检查点

1
2
3
#每5秒后,保存一次检查点。默认的保存时间间隔是10分钟
with tf.train.MonitoredTrainingSession(checkpoint_dir=savedir+"linear.cpkt",save_checkpoint_secs=5) as sess:
sess.run(tf.global_variables_initializer())

这种按照时间保存的模式更适合用于使用大型数据集来训练复杂模型的情况。

使用该方法前,必须要定义global_step变量

1
global_step=tf.train.get_or_create_global_step()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
import os

train_x = np.linspace(-5, 3, 50)
train_y = train_x * 5 + 10 + np.random.random(50) * 10 - 5

# plt.plot(train_x, train_y, 'r.')
# plt.grid(True)
# plt.show()

tf.reset_default_graph()

X = tf.placeholder(dtype=tf.float32)
Y = tf.placeholder(dtype=tf.float32)

w = tf.Variable(tf.random.truncated_normal([1]), name='Weight')
b = tf.Variable(tf.random.truncated_normal([1]), name='bias')

z = tf.multiply(X, w) + b

cost = tf.reduce_mean(tf.square(Y - z))
learning_rate = 0.01
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)
init = tf.global_variables_initializer()
training_epochs = 30
display_step = 2

global_step = tf.train.get_or_create_global_step()

step = tf.assign_add(global_step, 1)

saver = tf.train.Saver()

savedir = "check-point/"

if __name__ == '__main__':
with tf.train.MonitoredTrainingSession(checkpoint_dir=savedir + 'linear.cpkt', save_checkpoint_secs=5) as sess:
sess.run(init)
loss_list = []
for epoch in range(training_epochs):
sess.run(global_step)
for (x, y) in zip(train_x, train_y):
sess.run(optimizer, feed_dict={X: x, Y: y})

if epoch % display_step == 0:
loss = sess.run(cost, feed_dict={X: x, Y: y})
loss_list.append(loss)
print('Iter: ', epoch, ' Loss: ', loss)

w_, b_ = sess.run([w, b], feed_dict={X: x, Y: y})
sess.run(step)

print(" Finished ")
print("W: ", w_, " b: ", b_, " loss: ", loss)
plt.plot(train_x, train_x * w_ + b_, 'g-', train_x, train_y, 'r.')
plt.grid(True)
plt.show()

load_epoch = 10

with tf.Session() as sess2:
sess2.run(tf.global_variables_initializer())
kpt = tf.train.latest_checkpoint(savedir + 'linear.cpkt')
saver.restore(sess2, kpt)
print(sess2.run([w, b], feed_dict={X: train_x, Y: train_y}))

第二个保存检查点的方法参考: https://www.cnblogs.com/baby-lily/p/10930591.html

----本文结束,感谢您的阅读。如有错,请指正。----
大哥大嫂过年好!支持我一下呗
0%