· Tomasz Siroń · Technologia

Awaria RAID: lekcja dla e-commerce

W poniedziałek rano otrzymaliśmy zgłoszenie od klienta z branży ecommerce, że ich systemy do obsługi zamówień i magazynu przestały działać. Szybka diagnoza przez zdalne ręce wskazała, że problem dotyczył zasobu iSCSI podmontowanego do wirtualizatora. Wirtualizacja była oparta na Proxmoxie, a iSCSI wdrożono wcześniej na serwerze QNAP przez poprzednie IT.

Opis zdjęcia

Co się stało? W piątek, podczas planowanej wymiany dysku w QNAPie, lokalne IT uruchomiło odbudowę macierzy RAID. Proces miał zakończyć się w weekend, ale w poniedziałek rano serwer praktycznie przestał odpowiadać. Kiedy zalogowaliśmy się na system, zobaczyliśmy load average na poziomie ponad 1700 - chyba najwyższy wynik, jaki ktokolwiek z nas widział.

Dlaczego tak się stało? Load average nie dotyczy tylko procesora, ale pokazuje, ile procesów czeka w kolejce na dostęp do zasobów, takich jak dyski. W tym przypadku problemem był IO wait, czas, w którym procesor czeka na dane z dysków. Odbudowa macierzy RAID obciążyła system tak bardzo, że praktycznie wszystkie operacje dyskowe zostały zablokowane, co uniemożliwiło wirtualnym maszynom dostęp do danych. Efekt? Systemy po prostu się zawiesiły. Na szczęście klient miał piątkowe backupy, a systemy przez weekend nie pracowały. Dzięki temu mogliśmy szybko odtworzyć kluczowe systemy na osobnym storage, zapewniając minimalny czas przestoju. Po przywróceniu operacyjności platformyzajęliśmy się dokładnym rozpoznaniem i rozwiązaniem problemów z QNAPem.

Wdrożyliśmy plan naprawczy: Przeniesienie kluczowych systemów na alternatywne zasoby storage, aby zminimalizować ryzyko przestojów w przyszłości. Implementacja monitoringu QNAPA z powiadomieniem email + zgłoszenie Jira, aby wcześniej wychwytywać potencjalne problemy.

logo SparkSome

NIP: 6793289948

REGON: 527616291

KRS: 0001085500

© Copyright
SparkSome Venture sp. z o.o.

Kontakt