如果点检查失败,Flink管道是否会失败?
据我所知,检查点失败应该被忽略,并重试可能更大的状态。我有这种情况如果点检查失败,Flink管道是否会失败?
- HDFS进入安全模式b'coz的名称节点发出
-
异常被抛出
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop。 ipc.StandbyException):操作类别WRITE在状态备用中不受支持。访问https://s.apache.org/sbnn-error ..................
在org.apache.flink.runtime.fs.hdfs.HadoopFileSystem.mkdirs(HadoopFileSystem.java:453) 在org.apache.flink.core.fs.SafetyNetWrapperFileSystem.mkdirs(SafetyNetWrapperFileSystem.java:111) 在org.apache.flink.runtime.state.filesystem.FsCheckpointStreamFactory.createBasePath(FsCheckpointStreamFactory.java:132)
的在hdfs问题得到解决后,管道在几次重启和检查点失败后回来。
我不会担心重启,但显然我失去了我的操作员状态。要么是我的卡夫卡消费者不断推进它在起点和下一个检查点失败(一分钟的价值)之间的偏移或者具有部分总计的运营商丢失。我有一个15分钟的密钥操作员计数窗口
我正在使用ROCKS DB,当然已启用检查点设置。因此
的问题是
- 应该如果检查点未通过管道重新启动?
- 为什么在重新启动时操作员状态没有重新创建?
- 抛出异常的性质是否与这个b'coz中的任何一个暂停并从保存点恢复正常工作?尽管我非常确定,但操作符像Window默认的运算符是drfault,因此如果我有timeWindow(Time.of(window_size,TimeUnit.MINUTES))。reduce(new ReduceFunction(),new WindowFunction()) ,状态由flink管理?
这取决于您的程序风格。 假设从检查点函数获得构造后,您的程序可能正在运行。
如果你的写作程序没有检查点构造,它不会影响你的点子衬里。
进一步明确
https://ci.apache.org/projects/flink/flink-docs-release-1.3/internals/stream_checkpointing.html