Skip to content

Latest commit

 

History

History
80 lines (56 loc) · 5 KB

6.checkpoints.md

File metadata and controls

80 lines (56 loc) · 5 KB

https://ci.apache.org/projects/flink/flink-docs-release-1.6/monitoring/checkpoint_monitoring.html

#监控Checkpoint

概述


Flink的Web界面提供了一个监视作业Checkpoint的选项卡。作业终止后,这些统计数据也可用。有四个不同的选项卡可显示有关Checkpoint的信息:概览,历史,摘要和配置。以下部分将依次介绍所有这些内容。

监控


概览页面

概述选项卡列出以下统计信息。请注意,JobManager进程结束后,这些指标就会消失,JobManager failover后,这些指标也会被重置。

  • checkpoint个数
    • 已触发: 自作业启动以来已触发的checkpoint总数。
    • 进行中: 当前正在进行的checkpoint数量。
    • 已完成: 自作业开始以来成功完成的checkpoint总数。
    • 已失败: 自作业启动以来失败的checkpoint总数。
    • 已恢复: 自作业启动以来的作业恢复次数。也就是作业重启的次数。请注意,使用savepoint启动作业,也算做一次恢复操作,如果JobManager在操作期间重启,这个指标也会被重置。
  • 最新完成的checkpoint: 最新成功完成的checkpoint。单击More details可为您提供子任务级别更详细的统计信息。
  • 最新失败的checkpoint: 最新的失败检查点。单击More details可为您提供子任务级别详细的统计信息。
  • 最新Savepoint: 最新触发的保存点及其外部存储路径。单击More details可为您提供子任务级别详细的统计信息。
  • 最新恢复信息: 有两种类型的还原操作。
    • 从Checkpoint恢复:从周期性Checkpoint恢复作业。
    • 从Savepoint恢复:从Savepoint恢复作业。

历史页面

Checkpoint历史记录保留当前正在进行的Checkpoint以及最近触发的Checkpoint的统计信息,包括:

Checkpoint监控:历史

  • ID: 触发的Checkpoint的ID。每个Checkpoint的ID都会从1开始累加。
  • 状态: 检查点的当前状态,正在进行中(‘转圈’),完成(‘对号’),或失败(‘叉号’)。如果触发的checkpoint是savepoint,您将看到一个‘保存’符号。
  • 触发时间: 在JobManager中触发checkpoint的时间。
  • 最新确认: 在JobManager上收到最新确认的任何子任务的时间(如果尚未收到确认,则为n/a)。
  • 端到端间隔: 从触发时间到最近确认的时间间隔(如果尚未收到确认,则为n/a)。完整checkpoint的端到端持续时间由确认checkpoint的最后一个子任务确定。这个时间通常比单个子任务需要实际checkpoint状态要大。
  • 状态值: 所有已确认子任务的状态值。
  • 已对齐缓冲量: 所有已确认子任务对齐缓冲的字节数。只有在检查过程中发生流对齐,此值> 0。如果checkpoint模式是AT_LEAST_ONCE这将始终为零,因为至少一次模式不需要流对齐。

checkpoint历史个数配置

您可以通过以下配置键配置设置web上展示的checkpoint个数。默认值是10.

# Number of recent checkpoints that are remembered
jobmanager.web.checkpoints.history:15

摘要页面

摘要计算在对齐期间缓冲的端到端持续时间,状态大小和字节的所有已完成检查点的简单最小/平均/最大统计数据(有关这些含义的详细信息,请参阅历史记录)。 checkpoint监控:摘要

请注意,这些统计信息不会在JobManager丢失后继续存在,并且在JobManager进行故障转移时被重置。

配置页面

这个配置列出您的流配置:

  • 检查点模式: 恰好一次或至少一次。
  • 间隔: 配置的检查点间隔。在此时间间隔内触发检查点。
  • 超时: 超时后,JobManager取消检查点并触发新的检查点。
  • 检查点之间的最小暂停: 检查点之间所需的最小暂停时间。检查点成功完成后,我们至少等待这段时间才能触发下一个检查点,这可能会延迟定期间隔。
  • 最大并发检查点: 可以同时进行的最大检查点数。
  • 持久化检查点: 启用或禁用。如果启用,则还列出外部化检查点的清除配置(删除时取消或保留)。

checkpoint详情

单击检查点的“更多详细信息”链接时,将获得所有运算符的“最小/平均/最大”摘要以及每个子任务的详细数字。 checkpoint监控:详细信息

每次操作的概要

checkpoint监控:详细信息摘要

所有子任务统计

checkpoint监控:子任务