Snapshots not deleted properly, causing orphaned snapshots and eventual system overload #290

boedy · 2024-09-04T12:43:38Z

We’ve encountered a persistent issue where snapshots are not being properly deleted from the LINSTOR system, resulting in a large number of orphaned snapshots that are putting significant strain on our Kubernetes cluster. This problem has caused severe performance degradation and may have contributed to recent crashes in our LINSTOR controller.

Last week, our cluster went down, likely due to this issue. When the cluster came back online, the LINSTOR controller was unable to start as the datastore seemed to have been corrupted. This issue has persisted across multiple controller restarts. I initially reported this on the LINSTOR forum, where I also outlined the steps I took to get the controller running again.

Context
We are creating hourly snapshots via Velero which are retained for 7 days. However many snapshots are not being deleted correctly from LINSTOR, leading to a significant buildup of orphaned snapshots. Despite using a VolumeSnapshotClass with the deletion policy set to Delete, these snapshots remain in the LINSTOR system even after the corresponding VolumeSnapshotContent and PVC objects are deleted in Kubernetes.

Over time, a large number of snapshots (approximately 2500+) accumulated in the LINSTOR system, though the corresponding PVCs and VolumeSnapshotContent objects no longer existed.

Upon investigation, I found that our cluster had over 30,000 PropsContainer records related to these orphaned snapshots, which made operations slow and timeouts more frequent. This likely contributed to LINSTOR controller crashes and resource corruption. Running the command kubectl get propscontainers.internal.linstor.linbit.com | wc -l took more than 40 seconds to complete.

I eventually used a script to manually clean up the orphaned snapshots, which reduced the PropsContainer records to around 838. However, the root cause of the snapshot deletion failure persists. One week later today, the issue has led to the following current state:

velero backup get | wc -l                                     -->     28
linstor snapshot list | wc -l                                 -->    912
k get propscontainers.internal.linstor.linbit.com | wc -l     -->  12235 
k get volumesnapshotcontent | wc -l                           -->    133

Context

Velero version: 1.13.1
LINSTOR CSI driver version: v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428
Piraeus v1.28.0

apiVersion: snapshot.storage.k8s.io/v1
deletionPolicy: Delete
driver: linstor.csi.linbit.com
kind: VolumeSnapshotClass
metadata:
  annotations:
    snapshot.storage.kubernetes.io/is-default-class: "true"
  name: default

linstor-csi-constroller logs and snapshot of resources and snapshots
Unfortunatly the linstor controller restarted, which prevents me from fetching the error reports listed in the logs.

time="2024-09-02T09:13:19Z" level=info msg="deleting volume" linstorCSIComponent=client volume=pvc-23f48d11-f801-450e-af00-bc8a3c3174b1
time="2024-09-02T09:13:19Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete volume: Message: 'Node: h-fsn-ded1, Resource: pvc-23f48d11-f801-450e-af00-bc8a3c3174b1 preparing for deletion.'; Details: 'Node: h-fsn-ded1, Resource: pvc-23f48d11-f801-450e-af00-bc8a3c3174b1 UUID is: abf8bedc-375c-41d4-833d-10f33c534e25' next error: Message: 'Preparing deletion of resource on 'h-fsn-ded1'' next error: Message: '(Node: 'h-fsn-ded4') Failed to create meta-data for DRBD volume pvc-23f48d11-f801-450e-af00-bc8a3c3174b1/0'; Reports: '[66B38BF5-0194E-001818]' next error: Message: 'Deletion of resource 'pvc-23f48d11-f801-450e-af00-bc8a3c3174b1' on node 'h-fsn-ded1' failed due to an unknown exception.'; Details: 'Node: h-fsn-ded1, Resource: pvc-23f48d11-f801-450e-af00-bc8a3c3174b1'; Reports: '[66CE38AA-00000-009040]'" linstorCSIComponent=driver method=/csi.v1.Controller/DeleteVolume nodeID= provisioner=linstor.csi.linbit.com req="volume_id:\"pvc-23f48d11-f801-450e-af00-bc8a3c3174b1\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428
time="2024-09-02T09:13:38Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete temporary snapshot ID: Message: 'Exception thrown.'; Details: 'com.linbit.linstor.transaction.TransactionException: Error creating rollback entry'; Reports: '[66CE38AA-00000-009041]'" linstorCSIComponent=driver method=/csi.v1.Controller/CreateSnapshot nodeID= provisioner=linstor.csi.linbit.com req="source_volume_id:\"pvc-6608a2a1-0d6a-4548-95ad-ee02facd1a88\" name:\"snapshot-e3432c8d-cfd0-4a5d-9546-1c9d21cf628e\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428
time="2024-09-02T09:15:04Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete temporary snapshot ID: Message: 'Exception thrown.'; Details: 'com.linbit.linstor.transaction.TransactionException: Error creating rollback entry'; Reports: '[66CE38AA-00000-009042]'" linstorCSIComponent=driver method=/csi.v1.Controller/CreateSnapshot nodeID= provisioner=linstor.csi.linbit.com req="source_volume_id:\"pvc-6608a2a1-0d6a-4548-95ad-ee02facd1a88\" name:\"snapshot-e3432c8d-cfd0-4a5d-9546-1c9d21cf628e\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428
time="2024-09-02T09:15:06Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete temporary snapshot ID: Message: 'Exception thrown.'; Details: 'com.linbit.linstor.transaction.TransactionException: Error creating rollback entry'; Reports: '[66CE38AA-00000-009043]'" linstorCSIComponent=driver method=/csi.v1.Controller/CreateSnapshot nodeID= provisioner=linstor.csi.linbit.com req="source_volume_id:\"pvc-9e20d899-1b94-46fb-80bc-f7c0df1801ea\" name:\"snapshot-ea77054e-1912-4846-af23-221edca35b78\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428
time="2024-09-02T09:15:07Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete temporary snapshot ID: Message: 'Exception thrown.'; Details: 'com.linbit.linstor.transaction.TransactionException: Error creating rollback entry'; Reports: '[66CE38AA-00000-009044]'" linstorCSIComponent=driver method=/csi.v1.Controller/CreateSnapshot nodeID= provisioner=linstor.csi.linbit.com req="source_volume_id:\"pvc-9e20d899-1b94-46fb-80bc-f7c0df1801ea\" name:\"snapshot-ea77054e-1912-4846-af23-221edca35b78\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428
time="2024-09-02T09:15:09Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete temporary snapshot ID: Message: 'Exception thrown.'; Details: 'com.linbit.linstor.transaction.TransactionException: Error creating rollback entry'; Reports: '[66CE38AA-00000-009045]'" linstorCSIComponent=driver method=/csi.v1.Controller/CreateSnapshot nodeID= provisioner=linstor.csi.linbit.com req="source_volume_id:\"pvc-9e20d899-1b94-46fb-80bc-f7c0df1801ea\" name:\"snapshot-ea77054e-1912-4846-af23-221edca35b78\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428
time="2024-09-02T09:15:13Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete temporary snapshot ID: Message: 'Exception thrown.'; Details: 'com.linbit.linstor.transaction.TransactionException: Error creating rollback entry'; Reports: '[66CE38AA-00000-009046]'" linstorCSIComponent=driver method=/csi.v1.Controller/CreateSnapshot nodeID= provisioner=linstor.csi.linbit.com req="source_volume_id:\"pvc-9e20d899-1b94-46fb-80bc-f7c0df1801ea\" name:\"snapshot-ea77054e-1912-4846-af23-221edca35b78\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428

linstor-csi.log
resources.txt
snapshots.txt

The text was updated successfully, but these errors were encountered:

WanzenBug · 2024-09-04T14:04:37Z

From the logs it seems there is an issue when cleaning up some metadata about the snapshots. This then causes the snapshot to be considered "not ready" and perhaps this messes up the retry logic of the snapshot provisioner.

What I do find strange is that I do not see any logs for an attempt to DeleteSnapshot, indicating that the csi-snapshotter sidecar does not oass deletion attempts back to LINSTOR CSI?

boedy · 2024-09-05T11:09:29Z

A day later I have some error reports I was able to inspect:

time="2024-09-05T10:58:14Z" level=info msg="deleting volume" linstorCSIComponent=client volume=pvc-b6529471-1479-48e0-9635-425bbb9fc430
time="2024-09-05T10:58:14Z" level=info msg="deleting volume" linstorCSIComponent=client volume=pvc-4e815c40-599e-4f49-bd2a-02c5b976b30c
time="2024-09-05T10:58:14Z" level=info msg="deleting volume" linstorCSIComponent=client volume=pvc-11ff0df2-bb2c-48d6-a9aa-a635b84b2ee6
time="2024-09-05T10:58:14Z" level=info msg="deleting volume" linstorCSIComponent=client volume=pvc-737cffbf-061a-4894-a218-8e3681fdab2b
time="2024-09-05T10:58:14Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete volume: Message: 'Node: h-fsn-ded1, Resource: pvc-b6529471-1479-48e0-9635-425bbb9fc430 preparing for deletion.'; Details: 'Node: h-fsn-ded1, Resource: pvc-b6529471-1479-48e0-9635-425bbb9fc430 UUID is: 6c5dae47-eac7-4259-b37d-a4e30b41fd74' next error: Message: '(Node: 'h-fsn-ded4') Failed to create meta-data for DRBD volume pvc-b6529471-1479-48e0-9635-425bbb9fc430/0'; Reports: '[66B38BF5-0194E-002651]' next error: Message: 'Preparing deletion of resource on 'h-fsn-ded1'' next error: Message: 'Deletion of resource 'pvc-b6529471-1479-48e0-9635-425bbb9fc430' on node 'h-fsn-ded1' failed due to an unknown exception.'; Details: 'Node: h-fsn-ded1, Resource: pvc-b6529471-1479-48e0-9635-425bbb9fc430'; Reports: '[66D848D0-00000-002945]'" linstorCSIComponent=driver method=/csi.v1.Controller/DeleteVolume nodeID= provisioner=linstor.csi.linbit.com req="volume_id:\"pvc-b6529471-1479-48e0-9635-425bbb9fc430\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428
time="2024-09-05T10:58:14Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete volume: Message: 'Node: h-fsn-ded3, Resource: pvc-737cffbf-061a-4894-a218-8e3681fdab2b preparing for deletion.'; Details: 'Node: h-fsn-ded3, Resource: pvc-737cffbf-061a-4894-a218-8e3681fdab2b UUID is: a3cf1103-173c-4601-9d93-7f3fd4f8b794' next error: Message: 'Preparing deletion of resource on 'h-fsn-ded3'' next error: Message: 'Node: h-fsn-ded3, Resource: pvc-737cffbf-061a-4894-a218-8e3681fdab2b marked for deletion.'; Details: 'Node: h-fsn-ded3, Resource: pvc-737cffbf-061a-4894-a218-8e3681fdab2b UUID is: a3cf1103-173c-4601-9d93-7f3fd4f8b794' next error: Message: 'Cleaning up 'pvc-737cffbf-061a-4894-a218-8e3681fdab2b' on 'h-fsn-ded3'' next error: Message: 'A database error occurred while deleting resource 'pvc-737cffbf-061a-4894-a218-8e3681fdab2b' on node 'h-fsn-ded3'.'; Cause: 'Error creating rollback entry'; Details: 'Node: h-fsn-ded3, Resource: pvc-737cffbf-061a-4894-a218-8e3681fdab2b'; Reports: '[66D848D0-00000-002946]'" linstorCSIComponent=driver method=/csi.v1.Controller/DeleteVolume nodeID= provisioner=linstor.csi.linbit.com req="volume_id:\"pvc-737cffbf-061a-4894-a218-8e3681fdab2b\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428
time="2024-09-05T10:58:14Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete volume: Message: 'A database error occurred while deleting resource definition 'pvc-4e815c40-599e-4f49-bd2a-02c5b976b30c'.'; Cause: 'Error creating rollback entry'; Details: 'Resource definition: pvc-4e815c40-599e-4f49-bd2a-02c5b976b30c'; Reports: '[66D848D0-00000-002947]'" linstorCSIComponent=driver method=/csi.v1.Controller/DeleteVolume nodeID= provisioner=linstor.csi.linbit.com req="volume_id:\"pvc-4e815c40-599e-4f49-bd2a-02c5b976b30c\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428
time="2024-09-05T10:58:14Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete volume: Message: 'A database error occurred while deleting resource definition 'pvc-11ff0df2-bb2c-48d6-a9aa-a635b84b2ee6'.'; Cause: 'Error creating rollback entry'; Details: 'Resource definition: pvc-11ff0df2-bb2c-48d6-a9aa-a635b84b2ee6'; Reports: '[66D848D0-00000-002948]'" linstorCSIComponent=driver method=/csi.v1.Controller/DeleteVolume nodeID= provisioner=linstor.csi.linbit.com req="volume_id:\"pvc-11ff0df2-bb2c-48d6-a9aa-a635b84b2ee6\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428

ERROR REPORT 66D848D0-00000-002947

============================================================

Application:                        LINBIT? LINSTOR
Module:                             Controller
Version:                            1.28.0
Build ID:                           959382f7b4fb9436fefdd21dfa262e90318edaed
Build time:                         2024-07-11T10:21:06+00:00
Error time:                         2024-09-05 10:58:14
Node:                               linstor-controller-7b9c4ccd45-dgk2z
Thread:                             grizzly-http-server-33
Access context information

Identity:                           PUBLIC
Role:                               PUBLIC
Domain:                             PUBLIC

Peer:                               RestClient(10.42.26.214; 'linstor-csi/v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428')

============================================================

Reported error:
===============

Category:                           RuntimeException
Class name:                         TransactionException
Class canonical name:               com.linbit.linstor.transaction.TransactionException
Generated at:                       Method 'commit', Source file 'ControllerK8sCrdTransactionMgr.java', Line #157

Error message:                      Error creating rollback entry

Error context:
        A database error occurred while deleting resource definition 'pvc-4e815c40-599e-4f49-bd2a-02c5b976b30c'.
ErrorContext:

Call backtrace:

    Method                                   Native Class:Line number
    commit                                   N      com.linbit.linstor.transaction.ControllerK8sCrdTransactionMgr:157
    commit                                   N      com.linbit.linstor.core.apicallhandler.controller.CtrlTransactionHelper:26
    commitDeleteRscDfnData                   N      com.linbit.linstor.core.apicallhandler.controller.CtrlRscDfnDeleteApiCallHandler:419
    deleteResourceDefinitionInTransaction    N      com.linbit.linstor.core.apicallhandler.controller.CtrlRscDfnDeleteApiCallHandler:216
    lambda$deleteResourceDefinition$0        N      com.linbit.linstor.core.apicallhandler.controller.CtrlRscDfnDeleteApiCallHandler:147
    doInScope                                N      com.linbit.linstor.core.apicallhandler.ScopeRunner:149
    lambda$fluxInScope$0                     N      com.linbit.linstor.core.apicallhandler.ScopeRunner:76
    call                                     N      reactor.core.publisher.MonoCallable:72
    trySubscribeScalarMap                    N      reactor.core.publisher.FluxFlatMap:127
    subscribeOrReturn                        N      reactor.core.publisher.MonoFlatMapMany:49
    subscribe                                N      reactor.core.publisher.Flux:8759
    onNext                                   N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:195
    request                                  N      reactor.core.publisher.Operators$ScalarSubscription:2545
    onSubscribe                              N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:141
    subscribe                                N      reactor.core.publisher.MonoJust:55
    subscribe                                N      reactor.core.publisher.MonoDeferContextual:55
    subscribe                                N      reactor.core.publisher.Flux:8773
    onNext                                   N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:195
    request                                  N      reactor.core.publisher.Operators$ScalarSubscription:2545
    onSubscribe                              N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:141
    subscribe                                N      reactor.core.publisher.MonoJust:55
    subscribe                                N      reactor.core.publisher.MonoDeferContextual:55
    subscribe                                N      reactor.core.publisher.Mono:4495
    subscribeWith                            N      reactor.core.publisher.Mono:4561
    subscribe                                N      reactor.core.publisher.Mono:4462
    subscribe                                N      reactor.core.publisher.Mono:4398
    subscribe                                N      reactor.core.publisher.Mono:4370
    doFlux                                   N      com.linbit.linstor.api.rest.v1.RequestHelper:326
    deleteResourceDefinition                 N      com.linbit.linstor.api.rest.v1.ResourceDefinitions:234
    invoke                                   N      jdk.internal.reflect.GeneratedMethodAccessor197:unknown
    invoke                                   N      jdk.internal.reflect.DelegatingMethodAccessorImpl:43
    invoke                                   N      java.lang.reflect.Method:568
    lambda$static$0                          N      org.glassfish.jersey.server.model.internal.ResourceMethodInvocationHandlerFactory:52
    run                                      N      org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher$1:146
    invoke                                   N      org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher:189
    doDispatch                               N      org.glassfish.jersey.server.model.internal.JavaResourceMethodDispatcherProvider$VoidOutInvoker:159
    dispatch                                 N      org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher:93
    invoke                                   N      org.glassfish.jersey.server.model.ResourceMethodInvoker:478
    apply                                    N      org.glassfish.jersey.server.model.ResourceMethodInvoker:400
    apply                                    N      org.glassfish.jersey.server.model.ResourceMethodInvoker:81
    run                                      N      org.glassfish.jersey.server.ServerRuntime$1:256
    call                                     N      org.glassfish.jersey.internal.Errors$1:248
    call                                     N      org.glassfish.jersey.internal.Errors$1:244
    process                                  N      org.glassfish.jersey.internal.Errors:292
    process                                  N      org.glassfish.jersey.internal.Errors:274
    process                                  N      org.glassfish.jersey.internal.Errors:244
    runInScope                               N      org.glassfish.jersey.process.internal.RequestScope:265
    process                                  N      org.glassfish.jersey.server.ServerRuntime:235
    handle                                   N      org.glassfish.jersey.server.ApplicationHandler:684
    service                                  N      org.glassfish.jersey.grizzly2.httpserver.GrizzlyHttpContainer:356
    run                                      N      org.glassfish.grizzly.http.server.HttpHandler$1:190
    doWork                                   N      org.glassfish.grizzly.threadpool.AbstractThreadPool$Worker:535
    run                                      N      org.glassfish.grizzly.threadpool.AbstractThreadPool$Worker:515
    run                                      N      java.lang.Thread:840

Caused by:
==========

Category:                           LinStorException
Class name:                         DatabaseException
Class canonical name:               com.linbit.linstor.dbdrivers.DatabaseException
Generated at:                       Method 'createRollbackEntry', Source file 'ControllerK8sCrdRollbackMgr.java', Line #84

Error message:                      Resource SecObjectProtection/9c97ab34f321499832eaf2e215adf633f798a4c6ac4d7768eb465adc1b58946d not found

ErrorContext:


Call backtrace:

    Method                                   Native Class:Line number
    createRollbackEntry                      N      com.linbit.linstor.transaction.ControllerK8sCrdRollbackMgr:84
    commit                                   N      com.linbit.linstor.transaction.ControllerK8sCrdTransactionMgr:152
    commit                                   N      com.linbit.linstor.core.apicallhandler.controller.CtrlTransactionHelper:26
    commitDeleteRscDfnData                   N      com.linbit.linstor.core.apicallhandler.controller.CtrlRscDfnDeleteApiCallHandler:419
    deleteResourceDefinitionInTransaction    N      com.linbit.linstor.core.apicallhandler.controller.CtrlRscDfnDeleteApiCallHandler:216
    lambda$deleteResourceDefinition$0        N      com.linbit.linstor.core.apicallhandler.controller.CtrlRscDfnDeleteApiCallHandler:147
    doInScope                                N      com.linbit.linstor.core.apicallhandler.ScopeRunner:149
    lambda$fluxInScope$0                     N      com.linbit.linstor.core.apicallhandler.ScopeRunner:76
    call                                     N      reactor.core.publisher.MonoCallable:72
    trySubscribeScalarMap                    N      reactor.core.publisher.FluxFlatMap:127
    subscribeOrReturn                        N      reactor.core.publisher.MonoFlatMapMany:49
    subscribe                                N      reactor.core.publisher.Flux:8759
    onNext                                   N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:195
    request                                  N      reactor.core.publisher.Operators$ScalarSubscription:2545
    onSubscribe                              N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:141
    subscribe                                N      reactor.core.publisher.MonoJust:55
    subscribe                                N      reactor.core.publisher.MonoDeferContextual:55
    subscribe                                N      reactor.core.publisher.Flux:8773
    onNext                                   N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:195
    request                                  N      reactor.core.publisher.Operators$ScalarSubscription:2545
    onSubscribe                              N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:141
    subscribe                                N      reactor.core.publisher.MonoJust:55
    subscribe                                N      reactor.core.publisher.MonoDeferContextual:55
    subscribe                                N      reactor.core.publisher.Mono:4495
    subscribeWith                            N      reactor.core.publisher.Mono:4561
    subscribe                                N      reactor.core.publisher.Mono:4462
    subscribe                                N      reactor.core.publisher.Mono:4398
    subscribe                                N      reactor.core.publisher.Mono:4370
    doFlux                                   N      com.linbit.linstor.api.rest.v1.RequestHelper:326
    deleteResourceDefinition                 N      com.linbit.linstor.api.rest.v1.ResourceDefinitions:234
    invoke                                   N      jdk.internal.reflect.GeneratedMethodAccessor197:unknown
    invoke                                   N      jdk.internal.reflect.DelegatingMethodAccessorImpl:43
    invoke                                   N      java.lang.reflect.Method:568
    lambda$static$0                          N      org.glassfish.jersey.server.model.internal.ResourceMethodInvocationHandlerFactory:52
    run                                      N      org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher$1:146
    invoke                                   N      org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher:189
    doDispatch                               N      org.glassfish.jersey.server.model.internal.JavaResourceMethodDispatcherProvider$VoidOutInvoker:159
    dispatch                                 N      org.glassfish.jersey.server.model.internal.AbstractJavaResourceMethodDispatcher:93
    invoke                                   N      org.glassfish.jersey.server.model.ResourceMethodInvoker:478
    apply                                    N      org.glassfish.jersey.server.model.ResourceMethodInvoker:400
    apply                                    N      org.glassfish.jersey.server.model.ResourceMethodInvoker:81
    run                                      N      org.glassfish.jersey.server.ServerRuntime$1:256
    call                                     N      org.glassfish.jersey.internal.Errors$1:248
    call                                     N      org.glassfish.jersey.internal.Errors$1:244
    process                                  N      org.glassfish.jersey.internal.Errors:292
    process                                  N      org.glassfish.jersey.internal.Errors:274
    process                                  N      org.glassfish.jersey.internal.Errors:244
    runInScope                               N      org.glassfish.jersey.process.internal.RequestScope:265
    process                                  N      org.glassfish.jersey.server.ServerRuntime:235
    handle                                   N      org.glassfish.jersey.server.ApplicationHandler:684
    service                                  N      org.glassfish.jersey.grizzly2.httpserver.GrizzlyHttpContainer:356
    run                                      N      org.glassfish.grizzly.http.server.HttpHandler$1:190
    doWork                                   N      org.glassfish.grizzly.threadpool.AbstractThreadPool$Worker:535
    run                                      N      org.glassfish.grizzly.threadpool.AbstractThreadPool$Worker:515
    run                                      N      java.lang.Thread:840


END OF ERROR REPORT.

time="2024-09-05T11:04:05Z" level=info msg="deleting volume" linstorCSIComponent=client volume=pvc-737cffbf-061a-4894-a218-8e3681fdab2b
time="2024-09-05T11:04:05Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete volume: Message: 'Node: h-fsn-ded3, Resource: pvc-737cffbf-061a-4894-a218-8e3681fdab2b preparing for deletion.'; Details: 'Node: h-fsn-ded3, Resource: pvc-737cffbf-061a-4894-a218-8e3681fdab2b UUID is: a3cf1103-173c-4601-9d93-7f3fd4f8b794' next error: Message: 'Preparing deletion of resource on 'h-fsn-ded3'' next error: Message: 'Node: h-fsn-ded3, Resource: pvc-737cffbf-061a-4894-a218-8e3681fdab2b marked for deletion.'; Details: 'Node: h-fsn-ded3, Resource: pvc-737cffbf-061a-4894-a218-8e3681fdab2b UUID is: a3cf1103-173c-4601-9d93-7f3fd4f8b794' next error: Message: 'Cleaning up 'pvc-737cffbf-061a-4894-a218-8e3681fdab2b' on 'h-fsn-ded3'' next error: Message: 'A database error occurred while deleting resource 'pvc-737cffbf-061a-4894-a218-8e3681fdab2b' on node 'h-fsn-ded3'.'; Cause: 'Error creating rollback entry'; Details: 'Node: h-fsn-ded3, Resource: pvc-737cffbf-061a-4894-a218-8e3681fdab2b'; Reports: '[66D848D0-00000-002957]'" linstorCSIComponent=driver method=/csi.v1.Controller/DeleteVolume nodeID= provisioner=linstor.csi.linbit.com req="volume_id:\"pvc-737cffbf-061a-4894-a218-8e3681fdab2b\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428

linstor r l -r pvc-737cffbf-061a-4894-a218-8e3681fdab2b
+---------------------------------------------------------------------------------------------------------------+
| ResourceName                             | Node       | Port | Usage | Conns |    State | CreatedOn           |
|===============================================================================================================|
| pvc-737cffbf-061a-4894-a218-8e3681fdab2b | h-fsn-ded3 | 7092 |       | Ok    | DELETING | 2024-09-04 19:04:31 |
+---------------------------------------------------------------------------------------------------------------+

ERROR REPORT 66D848D0-00000-002957

============================================================

Application:                        LINBIT? LINSTOR
Module:                             Controller
Version:                            1.28.0
Build ID:                           959382f7b4fb9436fefdd21dfa262e90318edaed
Build time:                         2024-07-11T10:21:06+00:00
Error time:                         2024-09-05 11:04:05
Node:                               linstor-controller-7b9c4ccd45-dgk2z
Thread:                             MainWorkerPool-3
Access context information

Identity:                           PUBLIC
Role:                               PUBLIC
Domain:                             PUBLIC

Peer:                               RestClient(10.42.26.214; 'linstor-csi/v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428')

============================================================

Reported error:
===============

Category:                           RuntimeException
Class name:                         TransactionException
Class canonical name:               com.linbit.linstor.transaction.TransactionException
Generated at:                       Method 'commit', Source file 'ControllerK8sCrdTransactionMgr.java', Line #157

Error message:                      Error creating rollback entry

Error context:
        A database error occurred while deleting resource 'pvc-737cffbf-061a-4894-a218-8e3681fdab2b' on node 'h-fsn-ded3'.
ErrorContext:

Call backtrace:

    Method                                   Native Class:Line number
    commit                                   N      com.linbit.linstor.transaction.ControllerK8sCrdTransactionMgr:157
    commit                                   N      com.linbit.linstor.core.apicallhandler.controller.CtrlTransactionHelper:26
    deleteDataInTransaction                  N      com.linbit.linstor.core.apicallhandler.controller.CtrlRscDeleteApiHelper:287
    lambda$deleteData$3                      N      com.linbit.linstor.core.apicallhandler.controller.CtrlRscDeleteApiHelper:218
    doInScope                                N      com.linbit.linstor.core.apicallhandler.ScopeRunner:149
    lambda$fluxInScope$0                     N      com.linbit.linstor.core.apicallhandler.ScopeRunner:76
    call                                     N      reactor.core.publisher.MonoCallable:72
    trySubscribeScalarMap                    N      reactor.core.publisher.FluxFlatMap:127
    subscribeOrReturn                        N      reactor.core.publisher.MonoFlatMapMany:49
    subscribe                                N      reactor.core.publisher.Flux:8759
    onNext                                   N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:195
    request                                  N      reactor.core.publisher.Operators$ScalarSubscription:2545
    onSubscribe                              N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:141
    subscribe                                N      reactor.core.publisher.MonoJust:55
    subscribe                                N      reactor.core.publisher.MonoDeferContextual:55
    subscribe                                N      reactor.core.publisher.Flux:8773
    onComplete                               N      reactor.core.publisher.FluxConcatArray$ConcatArraySubscriber:258
    onComplete                               N      reactor.core.publisher.FluxConcatArray$ConcatArraySubscriber:230
    onComplete                               N      reactor.core.publisher.FluxMap$MapSubscriber:144
    checkTerminated                          N      reactor.core.publisher.FluxFlatMap$FlatMapMain:847
    drainLoop                                N      reactor.core.publisher.FluxFlatMap$FlatMapMain:609
    innerComplete                            N      reactor.core.publisher.FluxFlatMap$FlatMapMain:895
    onComplete                               N      reactor.core.publisher.FluxFlatMap$FlatMapInner:998
    onComplete                               N      reactor.core.publisher.Operators$MultiSubscriptionSubscriber:2205
    onComplete                               N      reactor.core.publisher.FluxMap$MapSubscriber:144
    onComplete                               N      reactor.core.publisher.FluxConcatArray$ConcatArraySubscriber:230
    onComplete                               N      reactor.core.publisher.FluxPeek$PeekSubscriber:260
    onComplete                               N      reactor.core.publisher.Operators$MultiSubscriptionSubscriber:2205
    onComplete                               N      reactor.core.publisher.FluxMap$MapSubscriber:144
    onComplete                               N      reactor.core.publisher.FluxSwitchIfEmpty$SwitchIfEmptySubscriber:85
    complete                                 N      reactor.core.publisher.FluxCreate$BaseSink:460
    drain                                    N      reactor.core.publisher.FluxCreate$BufferAsyncSink:805
    complete                                 N      reactor.core.publisher.FluxCreate$BufferAsyncSink:753
    drainLoop                                N      reactor.core.publisher.FluxCreate$SerializedFluxSink:247
    drain                                    N      reactor.core.publisher.FluxCreate$SerializedFluxSink:213
    complete                                 N      reactor.core.publisher.FluxCreate$SerializedFluxSink:204
    apiCallComplete                          N      com.linbit.linstor.netcom.TcpConnectorPeer:506
    handleComplete                           N      com.linbit.linstor.proto.CommonMessageProcessor:372
    handleDataMessage                        N      com.linbit.linstor.proto.CommonMessageProcessor:296
    doProcessInOrderMessage                  N      com.linbit.linstor.proto.CommonMessageProcessor:244
    lambda$doProcessMessage$4                N      com.linbit.linstor.proto.CommonMessageProcessor:229
    subscribe                                N      reactor.core.publisher.FluxDefer:46
    subscribe                                N      reactor.core.publisher.Flux:8773
    onNext                                   N      reactor.core.publisher.FluxFlatMap$FlatMapMain:427
    drainAsync                               N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:453
    drain                                    N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:724
    onNext                                   N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:256
    drainFused                               N      reactor.core.publisher.SinkManyUnicast:319
    drain                                    N      reactor.core.publisher.SinkManyUnicast:362
    tryEmitNext                              N      reactor.core.publisher.SinkManyUnicast:237
    tryEmitNext                              N      reactor.core.publisher.SinkManySerialized:100
    processInOrder                           N      com.linbit.linstor.netcom.TcpConnectorPeer:415
    doProcessMessage                         N      com.linbit.linstor.proto.CommonMessageProcessor:227
    lambda$processMessage$2                  N      com.linbit.linstor.proto.CommonMessageProcessor:164
    onNext                                   N      reactor.core.publisher.FluxPeek$PeekSubscriber:185
    runAsync                                 N      reactor.core.publisher.FluxPublishOn$PublishOnSubscriber:440
    run                                      N      reactor.core.publisher.FluxPublishOn$PublishOnSubscriber:527
    call                                     N      reactor.core.scheduler.WorkerTask:84
    call                                     N      reactor.core.scheduler.WorkerTask:37
    run                                      N      java.util.concurrent.FutureTask:264
    run                                      N      java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask:304
    runWorker                                N      java.util.concurrent.ThreadPoolExecutor:1136
    run                                      N      java.util.concurrent.ThreadPoolExecutor$Worker:635
    run                                      N      java.lang.Thread:840

Caused by:
==========

Category:                           LinStorException
Class name:                         DatabaseException
Class canonical name:               com.linbit.linstor.dbdrivers.DatabaseException
Generated at:                       Method 'createRollbackEntry', Source file 'ControllerK8sCrdRollbackMgr.java', Line #84

Error message:                      Resource SecObjectProtection/4f6b035f7d27c705aa05e3513bdacfe7e15776aa08682cc130246d8e545443b8 not found

ErrorContext:


Call backtrace:

    Method                                   Native Class:Line number
    createRollbackEntry                      N      com.linbit.linstor.transaction.ControllerK8sCrdRollbackMgr:84
    commit                                   N      com.linbit.linstor.transaction.ControllerK8sCrdTransactionMgr:152
    commit                                   N      com.linbit.linstor.core.apicallhandler.controller.CtrlTransactionHelper:26
    deleteDataInTransaction                  N      com.linbit.linstor.core.apicallhandler.controller.CtrlRscDeleteApiHelper:287
    lambda$deleteData$3                      N      com.linbit.linstor.core.apicallhandler.controller.CtrlRscDeleteApiHelper:218
    doInScope                                N      com.linbit.linstor.core.apicallhandler.ScopeRunner:149
    lambda$fluxInScope$0                     N      com.linbit.linstor.core.apicallhandler.ScopeRunner:76
    call                                     N      reactor.core.publisher.MonoCallable:72
    trySubscribeScalarMap                    N      reactor.core.publisher.FluxFlatMap:127
    subscribeOrReturn                        N      reactor.core.publisher.MonoFlatMapMany:49
    subscribe                                N      reactor.core.publisher.Flux:8759
    onNext                                   N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:195
    request                                  N      reactor.core.publisher.Operators$ScalarSubscription:2545
    onSubscribe                              N      reactor.core.publisher.MonoFlatMapMany$FlatMapManyMain:141
    subscribe                                N      reactor.core.publisher.MonoJust:55
    subscribe                                N      reactor.core.publisher.MonoDeferContextual:55
    subscribe                                N      reactor.core.publisher.Flux:8773
    onComplete                               N      reactor.core.publisher.FluxConcatArray$ConcatArraySubscriber:258
    onComplete                               N      reactor.core.publisher.FluxConcatArray$ConcatArraySubscriber:230
    onComplete                               N      reactor.core.publisher.FluxMap$MapSubscriber:144
    checkTerminated                          N      reactor.core.publisher.FluxFlatMap$FlatMapMain:847
    drainLoop                                N      reactor.core.publisher.FluxFlatMap$FlatMapMain:609
    innerComplete                            N      reactor.core.publisher.FluxFlatMap$FlatMapMain:895
    onComplete                               N      reactor.core.publisher.FluxFlatMap$FlatMapInner:998
    onComplete                               N      reactor.core.publisher.Operators$MultiSubscriptionSubscriber:2205
    onComplete                               N      reactor.core.publisher.FluxMap$MapSubscriber:144
    onComplete                               N      reactor.core.publisher.FluxConcatArray$ConcatArraySubscriber:230
    onComplete                               N      reactor.core.publisher.FluxPeek$PeekSubscriber:260
    onComplete                               N      reactor.core.publisher.Operators$MultiSubscriptionSubscriber:2205
    onComplete                               N      reactor.core.publisher.FluxMap$MapSubscriber:144
    onComplete                               N      reactor.core.publisher.FluxSwitchIfEmpty$SwitchIfEmptySubscriber:85
    complete                                 N      reactor.core.publisher.FluxCreate$BaseSink:460
    drain                                    N      reactor.core.publisher.FluxCreate$BufferAsyncSink:805
    complete                                 N      reactor.core.publisher.FluxCreate$BufferAsyncSink:753
    drainLoop                                N      reactor.core.publisher.FluxCreate$SerializedFluxSink:247
    drain                                    N      reactor.core.publisher.FluxCreate$SerializedFluxSink:213
    complete                                 N      reactor.core.publisher.FluxCreate$SerializedFluxSink:204
    apiCallComplete                          N      com.linbit.linstor.netcom.TcpConnectorPeer:506
    handleComplete                           N      com.linbit.linstor.proto.CommonMessageProcessor:372
    handleDataMessage                        N      com.linbit.linstor.proto.CommonMessageProcessor:296
    doProcessInOrderMessage                  N      com.linbit.linstor.proto.CommonMessageProcessor:244
    lambda$doProcessMessage$4                N      com.linbit.linstor.proto.CommonMessageProcessor:229
    subscribe                                N      reactor.core.publisher.FluxDefer:46
    subscribe                                N      reactor.core.publisher.Flux:8773
    onNext                                   N      reactor.core.publisher.FluxFlatMap$FlatMapMain:427
    drainAsync                               N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:453
    drain                                    N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:724
    onNext                                   N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:256
    drainFused                               N      reactor.core.publisher.SinkManyUnicast:319
    drain                                    N      reactor.core.publisher.SinkManyUnicast:362
    tryEmitNext                              N      reactor.core.publisher.SinkManyUnicast:237
    tryEmitNext                              N      reactor.core.publisher.SinkManySerialized:100
    processInOrder                           N      com.linbit.linstor.netcom.TcpConnectorPeer:415
    doProcessMessage                         N      com.linbit.linstor.proto.CommonMessageProcessor:227
    lambda$processMessage$2                  N      com.linbit.linstor.proto.CommonMessageProcessor:164
    onNext                                   N      reactor.core.publisher.FluxPeek$PeekSubscriber:185
    runAsync                                 N      reactor.core.publisher.FluxPublishOn$PublishOnSubscriber:440
    run                                      N      reactor.core.publisher.FluxPublishOn$PublishOnSubscriber:527
    call                                     N      reactor.core.scheduler.WorkerTask:84
    call                                     N      reactor.core.scheduler.WorkerTask:37
    run                                      N      java.util.concurrent.FutureTask:264
    run                                      N      java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask:304
    runWorker                                N      java.util.concurrent.ThreadPoolExecutor:1136
    run                                      N      java.util.concurrent.ThreadPoolExecutor$Worker:635
    run                                      N      java.lang.Thread:840


END OF ERROR REPORT.

WanzenBug · 2024-09-09T05:51:00Z

Hmm, it could be that this:

time="2024-09-05T10:58:14Z" level=error msg="method failed" error="rpc error: code = Internal desc = failed to delete volume: Message: 'Node: h-fsn-ded1, Resource: pvc-b6529471-1479-48e0-9635-425bbb9fc430 preparing for deletion.'; Details: 'Node: h-fsn-ded1, Resource: pvc-b6529471-1479-48e0-9635-425bbb9fc430 UUID is: 6c5dae47-eac7-4259-b37d-a4e30b41fd74' next error: Message: '(Node: 'h-fsn-ded4') Failed to create meta-data for DRBD volume pvc-b6529471-1479-48e0-9635-425bbb9fc430/0'; Reports: '[66B38BF5-0194E-002651]' next error: Message: 'Preparing deletion of resource on 'h-fsn-ded1'' next error: Message: 'Deletion of resource 'pvc-b6529471-1479-48e0-9635-425bbb9fc430' on node 'h-fsn-ded1' failed due to an unknown exception.'; Details: 'Node: h-fsn-ded1, Resource: pvc-b6529471-1479-48e0-9635-425bbb9fc430'; Reports: '[66D848D0-00000-002945]'" linstorCSIComponent=driver method=/csi.v1.Controller/DeleteVolume nodeID= provisioner=linstor.csi.linbit.com req="volume_id:\"pvc-b6529471-1479-48e0-9635-425bbb9fc430\" " resp="<nil>" version=v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428

Triggers the error in the database, i.e. LINSTOR does not properly clean up the resources because of an error with drbd metadata. I don't know why linstor thinks it needs to create metadata to delete the volume....

Perhaps we should move this issue to linbit/linstor-server

boedy · 2024-09-09T16:53:53Z

That resource also seems te be in a disfunctional state:

linstor r l -r pvc-b6529471-1479-48e0-9635-425bbb9fc430
+---------------------------------------------------------------------------------------------------------------+
| ResourceName                             | Node       | Port | Usage | Conns |    State | CreatedOn           |
|===============================================================================================================|
| pvc-b6529471-1479-48e0-9635-425bbb9fc430 | h-fsn-ded1 | 7084 |       | Ok    | DELETING | 2024-09-04 11:54:55 |
| pvc-b6529471-1479-48e0-9635-425bbb9fc430 | h-fsn-ded4 | 7084 |       |       |  Unknown |                     |
+---------------------------------------------------------------------------------------------------------------+

And error report: 66D848D0-00000-002945

ERROR REPORT 66D848D0-00000-002945

============================================================

Application:                        LINBIT? LINSTOR
Module:                             Controller
Version:                            1.28.0
Build ID:                           959382f7b4fb9436fefdd21dfa262e90318edaed
Build time:                         2024-07-11T10:21:06+00:00
Error time:                         2024-09-05 10:58:14
Node:                               linstor-controller-7b9c4ccd45-dgk2z
Thread:                             MainWorkerPool-3
Access context information

Identity:                           PUBLIC
Role:                               PUBLIC
Domain:                             PUBLIC

Peer:                               RestClient(10.42.26.214; 'linstor-csi/v1.6.3-24ffba67ea151a0276bb418e65fd795b91779428')

============================================================

Reported error:
===============

Category:                           RuntimeException
Class name:                         DelayedApiRcException
Class canonical name:               com.linbit.linstor.core.apicallhandler.response.CtrlResponseUtils.DelayedApiRcException
Generated at:                       Method 'lambda$mergeExtractingApiRcExceptions$6', Source file 'CtrlResponseUtils.java', Line #188

Error message:                      Exceptions have been converted to responses

Error context:
        Deletion of resource 'pvc-b6529471-1479-48e0-9635-425bbb9fc430' on node 'h-fsn-ded1' failed due to an unknown exception.
Asynchronous stage backtrace:
        (Node: 'h-fsn-ded4') Failed to create meta-data for DRBD volume pvc-b6529471-1479-48e0-9635-425bbb9fc430/0

    Error has been observed at the following site(s):
    	*__checkpoint ? Prepare resource delete
    	*__checkpoint ? Activating resource if necessary before deletion
    Original Stack Trace:

Call backtrace:

    Method                                   Native Class:Line number
    lambda$mergeExtractingApiRcExceptions$6  N      com.linbit.linstor.core.apicallhandler.response.CtrlResponseUtils:188

Suppressed exception 1 of 2:
===============
Category:                           RuntimeException
Class name:                         ApiRcException
Class canonical name:               com.linbit.linstor.core.apicallhandler.response.ApiRcException
Generated at:                       Method 'handleAnswer', Source file 'CommonMessageProcessor.java', Line #346

Error message:                      (Node: 'h-fsn-ded4') Failed to create meta-data for DRBD volume pvc-b6529471-1479-48e0-9635-425bbb9fc430/0

Error context:
        Deletion of resource 'pvc-b6529471-1479-48e0-9635-425bbb9fc430' on node 'h-fsn-ded1' failed due to an unknown exception.
Call backtrace:

    Method                                   Native Class:Line number
    handleAnswer                             N      com.linbit.linstor.proto.CommonMessageProcessor:346
    handleDataMessage                        N      com.linbit.linstor.proto.CommonMessageProcessor:293
    doProcessInOrderMessage                  N      com.linbit.linstor.proto.CommonMessageProcessor:244
    lambda$doProcessMessage$4                N      com.linbit.linstor.proto.CommonMessageProcessor:229
    subscribe                                N      reactor.core.publisher.FluxDefer:46
    subscribe                                N      reactor.core.publisher.Flux:8773
    onNext                                   N      reactor.core.publisher.FluxFlatMap$FlatMapMain:427
    drainAsync                               N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:453
    drain                                    N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:724
    onNext                                   N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:256
    drainFused                               N      reactor.core.publisher.SinkManyUnicast:319
    drain                                    N      reactor.core.publisher.SinkManyUnicast:362
    tryEmitNext                              N      reactor.core.publisher.SinkManyUnicast:237
    tryEmitNext                              N      reactor.core.publisher.SinkManySerialized:100
    processInOrder                           N      com.linbit.linstor.netcom.TcpConnectorPeer:419
    doProcessMessage                         N      com.linbit.linstor.proto.CommonMessageProcessor:227
    lambda$processMessage$2                  N      com.linbit.linstor.proto.CommonMessageProcessor:164
    onNext                                   N      reactor.core.publisher.FluxPeek$PeekSubscriber:185
    runAsync                                 N      reactor.core.publisher.FluxPublishOn$PublishOnSubscriber:440
    run                                      N      reactor.core.publisher.FluxPublishOn$PublishOnSubscriber:527
    call                                     N      reactor.core.scheduler.WorkerTask:84
    call                                     N      reactor.core.scheduler.WorkerTask:37
    run                                      N      java.util.concurrent.FutureTask:264
    run                                      N      java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask:304
    runWorker                                N      java.util.concurrent.ThreadPoolExecutor:1136
    run                                      N      java.util.concurrent.ThreadPoolExecutor$Worker:635
    run                                      N      java.lang.Thread:840

Suppressed exception 2 of 2:
===============
Category:                           RuntimeException
Class name:                         OnAssemblyException
Class canonical name:               reactor.core.publisher.FluxOnAssembly.OnAssemblyException
Generated at:                       Method 'lambda$mergeExtractingApiRcExceptions$6', Source file 'CtrlResponseUtils.java', Line #188

Error message:
Error has been observed at the following site(s):
	*__checkpoint ? Prepare resource delete
	*__checkpoint ? Activating resource if necessary before deletion
Original Stack Trace:

Error context:
        Deletion of resource 'pvc-b6529471-1479-48e0-9635-425bbb9fc430' on node 'h-fsn-ded1' failed due to an unknown exception.
Call backtrace:

    Method                                   Native Class:Line number
    lambda$mergeExtractingApiRcExceptions$6  N      com.linbit.linstor.core.apicallhandler.response.CtrlResponseUtils:188
    subscribe                                N      reactor.core.publisher.FluxDefer:46
    subscribe                                N      reactor.core.publisher.Flux:8773
    onComplete                               N      reactor.core.publisher.FluxConcatArray$ConcatArraySubscriber:258
    onComplete                               N      reactor.core.publisher.FluxMap$MapSubscriber:144
    checkTerminated                          N      reactor.core.publisher.FluxFlatMap$FlatMapMain:847
    drainLoop                                N      reactor.core.publisher.FluxFlatMap$FlatMapMain:609
    innerComplete                            N      reactor.core.publisher.FluxFlatMap$FlatMapMain:895
    onComplete                               N      reactor.core.publisher.FluxFlatMap$FlatMapInner:998
    onComplete                               N      reactor.core.publisher.Operators$MultiSubscriptionSubscriber:2205
    onComplete                               N      reactor.core.publisher.FluxMap$MapSubscriber:144
    onComplete                               N      reactor.core.publisher.FluxConcatArray$ConcatArraySubscriber:230
    onComplete                               N      reactor.core.publisher.FluxPeek$PeekSubscriber:260
    onComplete                               N      reactor.core.publisher.Operators$MultiSubscriptionSubscriber:2205
    onComplete                               N      reactor.core.publisher.FluxMap$MapSubscriber:144
    onComplete                               N      reactor.core.publisher.FluxSwitchIfEmpty$SwitchIfEmptySubscriber:85
    complete                                 N      reactor.core.publisher.FluxCreate$BaseSink:460
    drain                                    N      reactor.core.publisher.FluxCreate$BufferAsyncSink:805
    complete                                 N      reactor.core.publisher.FluxCreate$BufferAsyncSink:753
    drainLoop                                N      reactor.core.publisher.FluxCreate$SerializedFluxSink:247
    drain                                    N      reactor.core.publisher.FluxCreate$SerializedFluxSink:213
    complete                                 N      reactor.core.publisher.FluxCreate$SerializedFluxSink:204
    apiCallComplete                          N      com.linbit.linstor.netcom.TcpConnectorPeer:506
    handleComplete                           N      com.linbit.linstor.proto.CommonMessageProcessor:372
    handleDataMessage                        N      com.linbit.linstor.proto.CommonMessageProcessor:296
    doProcessInOrderMessage                  N      com.linbit.linstor.proto.CommonMessageProcessor:244
    lambda$doProcessMessage$4                N      com.linbit.linstor.proto.CommonMessageProcessor:229
    subscribe                                N      reactor.core.publisher.FluxDefer:46
    subscribe                                N      reactor.core.publisher.Flux:8773
    onNext                                   N      reactor.core.publisher.FluxFlatMap$FlatMapMain:427
    drainAsync                               N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:453
    drain                                    N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:724
    onNext                                   N      reactor.core.publisher.FluxFlattenIterable$FlattenIterableSubscriber:256
    drainFused                               N      reactor.core.publisher.SinkManyUnicast:319
    drain                                    N      reactor.core.publisher.SinkManyUnicast:362
    tryEmitNext                              N      reactor.core.publisher.SinkManyUnicast:237
    tryEmitNext                              N      reactor.core.publisher.SinkManySerialized:100
    processInOrder                           N      com.linbit.linstor.netcom.TcpConnectorPeer:419
    doProcessMessage                         N      com.linbit.linstor.proto.CommonMessageProcessor:227
    lambda$processMessage$2                  N      com.linbit.linstor.proto.CommonMessageProcessor:164
    onNext                                   N      reactor.core.publisher.FluxPeek$PeekSubscriber:185
    runAsync                                 N      reactor.core.publisher.FluxPublishOn$PublishOnSubscriber:440
    run                                      N      reactor.core.publisher.FluxPublishOn$PublishOnSubscriber:527
    call                                     N      reactor.core.scheduler.WorkerTask:84
    call                                     N      reactor.core.scheduler.WorkerTask:37
    run                                      N      java.util.concurrent.FutureTask:264
    run                                      N      java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask:304
    runWorker                                N      java.util.concurrent.ThreadPoolExecutor:1136
    run                                      N      java.util.concurrent.ThreadPoolExecutor$Worker:635
    run                                      N      java.lang.Thread:840


END OF ERROR REPORT.

I'm fine with moving this to linbit/linstor-server. Should I just open an issue referencing this one?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Snapshots not deleted properly, causing orphaned snapshots and eventual system overload #290

Snapshots not deleted properly, causing orphaned snapshots and eventual system overload #290

boedy commented Sep 4, 2024

WanzenBug commented Sep 4, 2024

boedy commented Sep 5, 2024

WanzenBug commented Sep 9, 2024

boedy commented Sep 9, 2024

Snapshots not deleted properly, causing orphaned snapshots and eventual system overload #290

Snapshots not deleted properly, causing orphaned snapshots and eventual system overload #290

Comments

boedy commented Sep 4, 2024

WanzenBug commented Sep 4, 2024

boedy commented Sep 5, 2024

WanzenBug commented Sep 9, 2024

boedy commented Sep 9, 2024