Technologie vlastního monitorování, analýzy a podávání zpráv

Technologie Self-Monitoring, Analysis, and Reporting Technology neboli S.M.A.R.T. je systém sledování pevných disků počítače, který pomáhá zastavit riziko selhání. Slouží k tomu, že sleduje spolehlivost pevných disků a snaží se zjistit, kdy a kde by mohlo dojít k poruše.

 

Pozadí

Poruchy pevného disku se dělí do dvou kategorií:

  • K "předvídatelným selháním" dochází v delším časovém období. Příkladem je mechanické opotřebení nebo degradace povrchu paměťového zařízení.
  • K nepředvídatelným poruchám dochází náhle, nepředvídatelným způsobem. Příkladem může být selhání elektronické součástky nebo náhlá mechanická porucha, třeba z důvodu špatného zacházení.

Předvídatelné poruchy lze zjistit pomocí určitých monitorovacích zařízení. Je to jako teploměr ve vozidle, který může řidiče upozornit, aby něco udělal dříve, než dojde k vážnému poškození, například proto, že je motor příliš horký.

Přibližně 60 % všech poruch disků je způsobeno selháním mechaniky. Většina mechanických poruch je důsledkem postupného opotřebení. Případná porucha může být katastrofická. Než dojde k úplnému selhání, obvykle existují určité příznaky, že se selhání blíží. Mezi ně může patřit zvýšený tepelný výkon, větší hlučnost disku, problémy se čtením nebo zápisem dat a velký nárůst počtu poškozených sektorů disku.

Účelem funkce S.M.A.R.T. je upozornit uživatele nebo správce systému na blížící se selhání jednotky. V době varování je obvykle ještě čas provést určité úkony, aby se zabránilo ztrátě dat, například zkopírovat data na jinou jednotku. Přibližně 30 % selhání lze předpovědět pomocí S.M.A.R.T. Práce ve společnosti Google na více než 100 000 jednotkách ukázala malou celkovou předpovědní hodnotu stavu S.M.A.R.T. jako celku. Studie naznačuje, že určité dílčí kategorie informací, které některé implementace systému S.M.A.R.T. sledují, skutečně korelují se skutečnou mírou selhání. Během 60 dnů po první chybě při skenování disku je pravděpodobnost selhání disku v průměru 39krát vyšší, než kdyby k takové chybě nedošlo. Rovněž první chyby v přerozdělení, přerozdělení offline a počty probandů silně korelují s vyšší pravděpodobností selhání.

Na stránce PCTechGuide o technologii S.M.A.R.T. se v roce 2003 psalo, že tato technologie prošla třemi fázemi:

"

Ve své původní inkarnaci SMART předpovídal selhání sledováním určitých online aktivit pevného disku. Pozdější verze vylepšila předvídání poruch přidáním automatického off-line skenování čtení, které monitorovalo další operace. Nejnovější technologie SMART nejen monitoruje činnosti pevného disku, ale přidává i prevenci selhání tím, že se pokouší odhalit a opravit chyby v sektorech. Zatímco dřívější verze technologie monitorovaly pouze činnost pevného disku pro data, která byla načtena operačním systémem, tato nejnovější technologie SMART testuje všechna data a všechny sektory disku pomocí "off-line sběru dat", aby potvrdila stav disku během období nečinnosti.

"

 

Historie a předchůdci

První technologii monitorování pevných disků v oboru představila společnost IBM v roce 1992 ve svých diskových polích IBM 9337 pro servery AS/400 s diskovými jednotkami IBM 0662 SCSI-2. Později byla pojmenována jako technologie Predictive Failure Analysis (PFA). Jednalo se o měření několika klíčových parametrů stavu zařízení a jejich vyhodnocování v rámci firmwaru disku. Komunikace mezi fyzickou jednotkou a monitorovacím softwarem byla omezena na binární výsledek - konkrétně buď "zařízení je v pořádku", nebo "jednotka pravděpodobně brzy selže".

Později vytvořili výrobce počítačů Compaq a výrobci disků Seagate, Quantum a Conner další variantu, která dostala název IntelliSafe. Diskové mechaniky by měřily "zdravotní parametry" disku a hodnoty by se přenášely do operačního systému a softwaru pro monitorování uživatelského prostoru. Každý výrobce diskových jednotek se mohl svobodně rozhodnout, které parametry budou zahrnuty do monitorování a jaké budou jejich prahové hodnoty. Sjednocení probíhalo na úrovni protokolu s hostitelem.

Počátkem roku 1995 předložila společnost Compaq svou implementaci výboru Small Form Committee ke standardizaci. Podpořila ji společnost IBM, vývojoví partneři společnosti Compaq, společnosti Seagate, Quantum a Conner, a společnost Western Digital, která v té době neměla systém předvídání poruch. Výbor zvolil přístup IntelliSafe, protože poskytoval větší flexibilitu. Výsledný společně vyvinutý standard byl pojmenován S.M.A.R.T.

 

Informace SMART

Technická dokumentace pro SMART je obsažena ve standardu AT Attachment (ATA).

Nejzákladnější informací, kterou SMART poskytuje, je stav SMART. Poskytuje pouze dvě hodnoty: "práh nebyl překročen" a "práh byl překročen". Často jsou reprezentovány jako "jednotka v pořádku", respektive "jednotka selhala". Hodnota "threshold exceeded" má indikovat, že existuje poměrně vysoká pravděpodobnost, že jednotka nebude v budoucnu schopna dodržet své specifikace - to znamená, že jednotka "brzy selže". Předpokládané selhání může být katastrofické nebo může jít o něco tak jemného, jako je neschopnost zapisovat do určitých sektorů nebo třeba nižší výkon, než je výrobcem deklarované minimum.

Stav SMART nemusí nutně indikovat minulou nebo současnou spolehlivost jednotky. Pokud již došlo ke katastrofickému selhání jednotky, může být stav SMART nedostupný. Případně, pokud se u jednotky v minulosti vyskytly problémy, ale senzory již takové problémy nedetekují, může stav SMART v závislosti na naprogramování výrobce naznačovat, že jednotka je nyní v pořádku.

Neschopnost přečíst některé sektory nemusí vždy znamenat, že disk brzy selže. Jedním ze způsobů, jak mohou vzniknout nečitelné sektory, i když jednotka funguje v souladu se specifikacemi, je náhlý výpadek napájení během zápisu. Aby se tomuto problému předešlo, moderní pevné disky vždy dokončí zápis alespoň aktuálního sektoru ihned po výpadku napájení (obvykle s využitím rotační energie disku). Také v případě, že je fyzický disk poškozen na jednom místě tak, že je určitý sektor nečitelný, může disk využít volné místo, které nahradí vadnou oblast, takže sektor může být přepsán.

Podrobnější informace o stavu jednotky získáte, když prozkoumáte atributy SMART. Atributy SMART byly zahrnuty v některých návrzích standardu ATA, ale byly odstraněny dříve, než se standard stal konečným. Význam a interpretace atributů se u jednotlivých výrobců liší a někdy jsou považovány za obchodní tajemství toho či onoho výrobce. Atributy jsou dále popsány níže.

Jednotky se SMART mohou volitelně podporovat řadu "protokolů". Protokol chyb zaznamenává informace o posledních chybách, které jednotka nahlásila hostitelskému počítači. Prozkoumání tohoto protokolu může pomoci určit, zda problémy s počítačem souvisejí s diskem, nebo jsou způsobeny něčím jiným.

Jednotka podporující SMART může volitelně podporovat řadu autotestů nebo rutin údržby a výsledky testů jsou uchovávány v protokolu autotestů. Rutiny autotestů mohou být použity ke zjištění nečitelných sektorů na disku, aby mohly být obnoveny ze záložních zdrojů (například z jiných disků v RAID). To pomáhá snížit riziko trvalé ztráty dat.

 

Normy a implementace

Mnoho základních desek zobrazí varovnou zprávu, když se blíží porucha diskové jednotky. Ačkoli se jedná o průmyslový standard u většiny hlavních výrobců pevných disků, přetrvávají některé problémy a jednotliví výrobci mají mnoho vlastních "tajných znalostí" o svém specifickém přístupu.

Z právního hlediska se termín "S.M.A.R.T." vztahuje pouze na způsob signalizace mezi interními elektromechanickými snímači diskové jednotky a hostitelským počítačem. Výrobce tedy může tvrdit, že disk obsahuje podporu S.M.A.R.T., i když neobsahuje například teplotní čidlo, jehož přítomnost může zákazník důvodně očekávat. V krajním případě by navíc výrobce disků mohl teoreticky vyrobit disk, který by obsahoval snímač pouze pro jeden fyzikální atribut, a pak by výrobek legálně inzeroval jako "kompatibilní se S.M.A.R.T.".

V závislosti na typu použitého rozhraní nemusí některé základní desky s podporou S.M.A.R.T. a související software s některými jednotkami podporujícími S.M.A.R.T. komunikovat. Například jen málo externích jednotek připojených přes rozhraní USB a Firewire správně odesílá data S.M.A.R.T. přes tato rozhraní. Vzhledem k velkému množství způsobů připojení pevného disku (SCSI, Fibre Channel, ATA, SATA, SAS, SSA atd.) je obtížné předvídat, zda budou zprávy S.M.A.R.T. v daném systému fungovat správně.

Informace S.M.A.R.T. nemusí být operačnímu systému počítače správně hlášeny ani na pevných discích a rozhraních, které ji podporují. Některé diskové řadiče mohou duplikovat všechny operace zápisu na sekundární "záložní" jednotku v reálném čase. Tato funkce je známá jako "zrcadlení RAID". Mnoho programů, které jsou určeny k analýze změn v chování disků a předávání S.M.A.R.T. upozornění obsluze, však nefunguje správně, pokud je počítačový systém nakonfigurován pro podporu RAID. Obecně je to proto, že za běžných provozních podmínek RAID nemá počítač od subsystému RAID povoleno "vidět" (nebo přímo přistupovat) k jednotlivým fyzickým jednotkám, ale může přistupovat pouze k logickým svazkům.

Na platformě Windows bude mnoho programů určených ke sledování a hlášení informací S.M.A.R.T. fungovat pouze pod účtem správce. V současné době je systém S.M.A.R.T. implementován výrobci individuálně, a zatímco některé aspekty jsou kvůli kompatibilitě standardizovány, jiné nikoli.

 

Atributy ATA S.M.A.R.T.

Každý výrobce pohonů definuje sadu atributů a stanoví prahové hodnoty, při jejichž překročení by atributy neměly za běžného provozu procházet. Každý atribut má hrubou hodnotu, jejíž význam závisí pouze na výrobci jednotky (často však odpovídá počtu nebo fyzikální jednotce, např. stupňům Celsia nebo sekundám), a normalizovanou hodnotu, která se pohybuje v rozmezí od 1 do 253 (přičemž 1 představuje nejhorší a 253 nejlepší případ). V závislosti na výrobci se jako "normální" hodnota často volí hodnota 100 nebo 200.

Mezi výrobce, kteří podporují alespoň jeden atribut S.M.A.R.T. v různých produktech, patří: Samsung, Seagate, IBM (Hitachi), Fujitsu, Maxtor, Toshiba, Western Digital a ExcelStor Technology.

Překročení prahové hodnoty Podmínka

Threshold Exceeds Condition (TEC) je předpokládané datum, kdy kritický statistický atribut jednotky dosáhne své prahové hodnoty. Pokud software Drive Health hlásí "Nejbližší T.E.C.", mělo by to být považováno za "Datum poruchy".

Prognóza tohoto data je založena na faktoru "Rychlost změny atributu"; o kolik bodů se každý měsíc hodnota snižuje/zvyšuje. Tento faktor se počítá automaticky při každé změně atributů S.M.A.R.T. pro každý atribut zvlášť. Upozorňujeme, že data TEC nejsou zárukou; pevné disky mohou vydržet a vydrží buď mnohem déle, nebo selžou mnohem dříve, než je datum uvedené v TEC.

 

AlegsaOnline.com - 2020 / 2023 - License CC3