信頼性向上策について

こんにちは。ぽこです!

今回は、信頼性向上策についてお話しします。最初に信頼性向上策の基本となるMTBFとMTTRについて理解し、そのあとで、信頼性設計についての基本項目を見ていきます。

MTBF

信頼性を表す評価尺度として、MTBF(Mean Time Between Failures : 平均故障間隔)があります。MTBFは、システムが故障してから次に故障するまでの時間のことであり、システムが正常に連続動作をしている時間を表します。数字が大きいほど信頼性は高くなります。

MTTR

保守性を表す評価尺度として、MTTR(Mean Time To Rapair : 平均修理時間)があります。MTTRはシステムが故障してからそのシステムが再度利用できるまでの時間のことであり、復旧にかかる時間を表します。こちらは当然短ければ短い方が良いです。

MTBF / (MTBF + MTTR)

こちらは可溶性または稼働率を表す評価尺度です。システムの信頼性評価指標の1つとなっています。システムを使用したいときに使用できる指標のことで、上記の計算式で求められます。

フォールトアボイダンスとフォールトトレランス

システムの信頼性を高める技術には、大きく分けてフォールトアボイダンスとフォールトトレランスの2つがあります。前者は、障害そのものの発生を予防しようという考え方で、後者は、障害が発生してもシステム全体では機能を保持しようという考え方になります。

フォールトトレランスは、狭義には、それ自体一つの技術として言われることもあるが、広義には、フェールソフト、フォールバック、フェールセーフなどを含んだものということができます。そのため、フォールトトレランスと、フェールソフトは、同じような意味で使われるが、それ以外は、微妙に意味が異なるので混同しないように注意が必要です。

フォールトアボイダンス

システムの構成要素自体の信頼性を高めるなど、障害の発生そのものを除去しようという考え方またはその技術のことです。フォールトトレランスなどの障害発生を想定した対策に対して、根源的な対策になります。

フォールトトレランス

システムの一部が故障した場合でも、システムの稼働を継続させる考え方、または技術のことを言います。一般的にはRAIDや電源の二重化など、ハードウェアを冗長構成にして実現することが多いです。フォールトトレランスには、フェールソフト、フォールバック、フェールセーフなどがあります。

フェールソフト

システムのどこかに部分的に障害が発生しても、システムを全面停止せずに継続稼働させるという考え方です。代替機能を働かせたり、縮退運転を行ったりして、システムの全面停止を避けます。能力は多少劣っても、故障個所を破棄し、縮退運転させることを特にフォールバックといいます。

フォールバック

障害発生時、システムを全面停止とせず、必要最小限の機能を維持して運用を継続することを言います(縮退運転)。

フールプルーフ

利用者が思いもよらない使い方をした場合や、誤った操作をした場合でも、障害が発生しない(安全である)仕組みのことです。例えば、システムファイルを削除できないようにする機能や、入力ミス時に警告ブザーを鳴らす機能などがこれに当たります。

フェールセーフ

障害発生時、システムが安全な方向に向かうように設計しておき、被害の広がりを最小限に防ごうとする方法のことです。交通信号制御システムの故障発生時に、信号機が単独で赤信号になるようにしておくなどがこれに当たります。人命に関わるシステムなどでは必ず考えておかなければならない外面となります。

タイトルとURLをコピーしました