Monitoring VMware infrastruktury System4u

Dnešní do zelena se tvářící stav našich serverů mě přivedl na myšlenku napsat něco o VEAM Monitoringu, který pro naši infrastrukturu využíváme, a tím i přiblížit zákazníkům péči, kterou jejich datům v našem cloudu věnujeme.

Ve dvou našich datových centrech používáme VMWare prostředí pro virtualizaci a jako vhodný nástroj pro monitoring jsme vybrali Veam One Monitor, který doplnil naše stávající monitorovací technologie.

V základní verzi jej můžete instalovat i zdarma, v placených verzích obsahuje integraci do jiných komerčních systémů a rozšířené nástroje. Instalovat ho můžete také na běžný server, ale budete potřebovat spojení na V-Center server(y).

Dnešní stav ilustruje jak naši infrastrukturu, tak pondělní administrátorskou pohodu.
InfrastructureAsOf20140811
Z 9 našich hostů jsou všechny OK, z 23 datových polí jedno s varování a z 96 monitorovaných virtuálních strojů vykazují dva varování. Pod tímto výsečovým přehledem jsou potom vidět aktuální alerty.

Samozřejmě je za tím jak správná alokace prostředků na dostupný hardware, tak také správné pochopení a nastavení vlastního monitoringu.  Veam ONE Monitoring se stejně jako jiné monitorovací nástroje dodává s předdefinovanou sadou alertů a ihned po instalaci se aktivuje.

Pokud jste v oboru virtualizace a monitoringu nováčkem, budete asi nemile překvapeni záplavou rudých a žlutých barev, které vás budou upozorňovat na potencionální problémy. Ale to jste patrně také očekávali, když jste monitoring instalovali. Ne vše funguje tak, jak má.

Postupně jsme se tímto nikdy nekončícím procesem stále nových upozornění probrali, avšak i poté jsme zjistili, že některé alerty jsou prostě příliš restriktivní. V našem případě šlo například o volné místo na operačním systému hosta.

Jako bonus pro pečlivého čtenáře uvádím návod, jak si daný alert upravit. Začnete tím, že si otevřete jeho definici kliknutím na název alertu a objeví se něco jako:

alert_def

Zde můžete alert úplně vypnout Enable this alarm, ale to asi není žádoucí. Proto klepněte na záložku Rules a tam si upravte požadované hodnoty na základě vašich business potřeb.

alert_rules

Pro nás bylo výchozí nastavení 10% pro varování a 5% pro chybu příliš restriktivní. Disky, které mají velikost několik stovek GB, nám hlásily stále chyby, i když byla kapacita volného místa stále v desítkách GB. Rozhodli jsme se proto snížit nastavení na 1% kapacity disku pro nahlášení chyby.

U Windows serverů, kterých máme většinu, dublujeme tento alert ještě ve SCOM 2008 – o tom ale příště. Nicméně se ukázalo, že nám logicky začalo docházet nepozorovaně místo na discích, které nejsou tak velké a na které nebyl nasazen SCOM, protože se jedná o jiný OS nebo demo prostředí.

K řešení tohoto problému však stačilo málo. Veam nabízí jednoduše zkombinovat více parametrů do jednoho alertu, a tak stačilo kromě pravidla na relativní velikost přidat i pravidlo na absolutní velikost a bylo po starostech. Ovšem jen do té chvíle, než první server nahlásí nedostatek místa.

Pokud tedy máte menší virtuální prostředí, ať už na platformě VMWare nebo Hyper-V, neváhejte tento nástroj vyzkoušet.