Schulze-EDV-Service Home -AIX Support - Neuigkeiten

High Availability Cluster Multiprocessing

Die Unterschiede von HACMP Ver. 5 zu den vorhergehenden Versionen, sowohl in Definition, Umfang und Bedienung erfordern eine Trennung der Information.  Informationen zu GLVM finden Sie in der HACMP 5.x Verzweigung. Bitte folgen Sie den entsprechenden Links.

HACMP 4.x  HACMP bis 5.4, PowerHA 5.5+

Die unnötigsten Fehler beim Anlegen und Betrieb von HA-Clustern

PowerHA Forum bei Developerworks

HACMP Forum bei Yahoo

Disaster Recovery Journal: http://www.drj.com/

Top

++++++++++++++++++++++++++++++++++++++++++++++++++

Wieviel Ausfallzeit bedeutet...?

Verfügbarkeit in Prozent ist erfüllt bei einer durchschnittlichen Ausfallzeit von

99%

maximal 100 Minuten pro Woche

99,9%

maximal 45 Minuten pro Monat

99,95%

maximal 22 Minuten pro Monat

99,99%

maximal 4:22 Minuten pro Monat

99,999%

maximal 5,15 Minuten pro Jahr

Für Verfügbarkeiten die besser als 99,9% sind benötigt man i.d.R. Clusterlösungen. Durch Einsatz redundanter Adapter und Netzteile erreicht man auf pSeries AIX Server 99,95% Verfügbarkeit. Mit PowerHA Cluster und AIX kann man wenn die Übernahme der Applikation entsprechend schnell abläuft 99,99% Verfügbarkeit erreichen. Um entscheiden zu können, welche Verfügbarkeit man benötigt, muß man wissen wie teuer ein Systemausfall (pro Minute) ist.

Die unnötigsten Fehler beim Anlegen und Betrieb von HA-Clustern

Über Installation, Konfiguration und Betrieb von HA Clustern gibt es eine große Menge an Dokumentation von IBM, es gibt spezielle Foren um Fragen zu stellen und es gibt FAQs und HowTos von Leuten, die gerne mit HA arbeiten und das professionell beherrschen. Deshalb ist man eigentlich versucht zu glauben, daß bei Clustern, die wirklich unternehmenskritische Anwendungen beherbergen,  keine Fehler und Probleme vorkommen, die seit 10 oder mehr Jahren bekannt sind. Streng genommen sollten Cluster nur Schwierigkeiten haben, wenn ein Bug in einem Fileset vorliegt. Das ist dann immer noch lästig genug.

In der Praxis ist es jedoch leider so, daß die wirklich sauber installierten und professionell betriebenen Cluster eine kleine Minderheit sind und die Mehrzahl einen oder sogar mehrere vermeidbare weil bekannte Fehler enthalten. Solche unnötigen Fehler zeigen sich meist darin, daß die Standalone AIX Server stabiler laufen als die AIX Server im HA Cluster. Die Fehler lassen sich in drei Klassen einteilen:

  1. Fehler durch die Leiter der IT
  2. Fehler bei der Nutzung des AIX Betriebssystem
  3. Fehler bei der Clusterinstallation bzw. -konfiguration.

Hier nun unsere Liste der unnötigsten Fehler beim Anlegen und Betrieb von HA Clustern:

Fehler durch Manager

Hier hapert es bei den Verantwortlichen für den IT-Betrieb, die sich nicht richtig darum kümmern, daß die teuren Anlagen auch optimal bedient werden. Es wird an ausgebildetem Personal gespart und es gibt keine brauchbare oder sogar überhaupt keine Dokumentation. Motto: "bis jetzt lief doch alles wunderbar". Aber dieses "bis jetzt ging's gut" ist trügerisch, denn die erwiesene hohe Qualität und Stabilität der einzelnen AIX Server verleitet die Verantwortlichen oft zu dem falschen Schluß, dieses Verhalten müsse demjenigen im Falle eines Failover entsprechen. Dies gilt leider nur für fachgerecht betriebene Cluster. Unqualifiziert betriebene Cluster vergrößern das Risiko eines Clusterversagens beträchtlich und führen den Aufwand für den Cluster ad absurdum. Anders ausgedrückt, wer sich nicht bemüht seine HA Custer professionell zu betreiben ist mit standalone Systemen wirklich besser dran.

Fehler bei der Nutzung des Betriebssystem

Hier klemmt es bei den Administratoren. Motto: ich bin root, ich darf alles und wenn ich mal Mist konfiguriere, dann skripte ich einfach um die Clusterfunktionen herum. Wobei man natürlich noch unterscheiden muß, ob dem Administrator die Ausbildung vorenthalten wurde weil seine Firma am falschen Ende spart oder ob der Administrator in seiner eigenen Hybris entscheidet daß er keine Ausbildung mehr braucht weil er schon alles weiß. Im Ergebnis ist es nachher dasselbe - man baut sich Zeitbomben ins System ein, die fast immer bei einer unpassenden Gelegenheit hochgehen.

Fehler bei der Clusterinstallation, -konfiguration und -betrieb

Dies betrifft die Clusteradministratoren, oft in Zusammenspiel mit den Kollegen der jeweiligen Applikationsbetreuung. Unangenehm wird es auch, wenn ein Administrator nicht merkt, daß er auf einem Clusterknoten ist und anstelle von Clusterkommandos diejenigen für Standalone Server verwendet. Im besten Fall sind die hier genannten Probleme lästig, man verliert Zeit (die man natürlich nie hat), im schlimmsten Fall schlägt der failover fehl und anstatt der Cluster von allein funktioniert muß manuell eingegriffen werden.

Diese Liste ist natürlich nicht vollständig, es sind lediglich die Fehler, die uns in der freien Wildbahn mit schöner Regelmäßigkeit immer wieder begegnen. Aber wer die hier genannten Fehler vermeidet, verbessert die Verfügbarkeit seiner HA Cluster schon sehr entscheident.

Top

Copyright © Schulze-EDV-Service 2002-2011

Alle hier genannten Produkte sind eingetragene Marken oder Marken der jeweiligen Eigentümer. Inhalte verlinkter Seiten machen wir uns nicht zu eigen und befürworten sie auch nicht.