GI/RAC 12.2: CSS Waits können zu einem Stillstand führen
Auf Linux - speziell auf Exadata Maschinen - und Unix - speziell im Supercluster- sollte man die CSS Waits unbedingt deaktivieren. Sie führen zu Problemen, die sogar zu einem Stillstand führen können. Oracle hat das inzwischen als Bug akzeptiert.
Ob das Problem auch auf Windows besteht, konnten wir noch nicht verifizieren.
Das Problem
Bei einigen Kunden konnten wir immer wieder CSS Waits beobachten, die eigentlich nicht erklärbar waren. Durch diesen Fehler kann es in unregelmäßigen Fällen zu massiven Performanceproblemen kommen, aber auch zum kompletten Ausfall.
In der Datenbank findet man dazu folgende Wait Events:
EVENT SECONDS_IN_WAIT
--------------------------- ---------------
CSS operation: action 10251
CSS operation: action 10313
Dies kann auch bei Single Instance Datenbanken auftreten, sofern sich darunter ein Grid Infrastructure Cluster befindet.
Fehleranalyse
Bei der Analyse sind wir schlussendlich auf folgende Oracle Note gestoßen, die die Erklärung zu diesem Verhalten gebracht hat:
diagsnap and other components collect stack traces on clusterware processes causing process hang and node eviction (Doc ID 2342114.1).
Auslöser/Ursache
Oracle hat mit dem Patch vom Oktober 2017 einige Traces in der Clusterware aktiviert, die dieses Verhalten hervorrufen können. (diagsnap und pstack)
Beseitigen des Problems
Wir empfehlen diese Traces wie folgt zu deaktivieren:
# /bin/oclumon manage -disable diagsnap
Successfully Disabled diagsnap
# /bin/oclumon manage -disable pstack
Successfully Disabled pstack
Es sollte nach jedem Patching geprüft werden, ob diese Traces weiterhin deaktiviert sind!