計算機系統工程/可靠性模型

什麼是系統？

定義

系統是由多個元素組合在一起形成的整體。

示例

河流或交通系統
貨幣系統
特定領域中的事實、原則和學說的綜合集合
標記、編號、測量等的系統
南卡羅來納大學 - 由哥倫比亞的主校區和許多分校組成
計算機（我們的主要興趣） - 包括元件：記憶體、處理器、主機板、磁碟、印表機、無線介面卡等。

並非每個集合都是一個系統。為了成為一個系統，一個集合需要具有一定的統一性，其元件之間具有功能關係，或者具有某種有用的目的。例如，房間裡的一組隨機物品，除非滿足上述條件之一，否則不會構成一個系統。

系統的元素如下

元件：用於輸入處理或輸出的操作部件
屬性：元件的特性，這些特性描述了系統
關係：元件和屬性之間的聯絡

元件是相互關聯的，並協同工作以實現某種目的、目標或功能。每個元件的特性和行為都會影響整個系統的特性。例如，計算機記憶體的速度、磁碟訪問時間和容量都會影響計算機的整體速度。每個元件的特性都依賴於至少一個其他元件。例如，記憶體效能取決於匯流排速度（頻寬）。每個元件的子集（或子系統）都以相同的方式相互關聯，但系統不能被分成獨立的子集。

通常，系統具有元件層次結構。一個系統由元件組成，而這些元件又由更小的元件組成。較低的層次結構稱為子系統。一個例子是硬碟驅動器。驅動器是計算機的一個元件，但它具有多個磁碟、讀寫頭、緩衝區以及許多其他更小的元件。

系統可以分類為

自然和人造（人造）
物理和概念
靜態和動態
封閉和開放

工程學關注的是為了造福人類而對有限資源的經濟利用。這是透過考慮以下幾個方面來解決問題的。在系統工程領域，必須定義與真實客戶需求相關的產品和系統需求。例如，設計滿足客戶通訊需求的電子郵件系統，必須很好地定義以滿足這些需求。工程學還必須解決整個系統，包括所有元素，並從生命週期角度出發。必須考慮整個層次結構，包括各個層次之間的互動以及同一層次上的各個元素之間的互動。計算機系統中這方面的示例是記憶體層次結構，由二級快取、主記憶體和硬碟上的虛擬記憶體組成。通常需要將各種相關學科在一個及時且同步的方式中組織成一項工程工作，例如系統的機械和電氣方面的不同方面。最後，建立對過程的規範化方法（管理過程以獲得結果）至關重要。這包括適當的審查、評估和反饋，以確保有序和高效的進展。

系統的生命週期由以下組成

以下是對該過程應用示例：第三世界國家的獨裁者通常想乘坐豪華汽車。然而，這種喜好並不得到太多支援。加油站並不普遍，經濟可能無法支援許多接受過汽車維修培訓的技工。因此，從工程學的角度來看，這個系統將需要更多的設計和資金才能變得可行。

系統工程概述

自頂向下：將系統作為一個整體來看
以生命週期為導向

1. Design, development production/construction, distribution, operation, maintenance &
support, retirement, phaseout, disposal
2. Past emphasis on design & acquisition, with little emphasis on production, operation,
maintenance, support & disposal
3. Example: If an old computer goes to a landfill (taking up space and polluting the
groundwater), a better design would allow the recovery of gold, lead, and other materials
upon disposal.

更好地定義系統需求 - 將客戶需求追溯到各個元件
跨學科

1. Systems usually require multiple disciplines
2. Example: In the development of a computer game, a company has 3 employees – an artist,
a musician, & a programmer.

可靠性

定義

“Reliability is the probability of a device performing adequately for the period of time intended under the operating conditions encountered.” – NASA

系統可靠性的數學模型

Reliability, R(t), is the probability of a system not failing during the period [0,t].

實驗

測試大量系統。

危險函式，h(t)

分離變數並積分

摘要 F(t) 是失效分佈函式 R(t) = 1-F(t) 是可靠性 f(t) 是失效密度函式 h(t) 是危險函式

f(t) 和 h(t) 的區別

在 2 到 3 時刻

危險函式

危險函式的形狀表明了物品如何老化。它有一個直觀的解釋，即物品在時刻 t 所承受的風險量

遞增危險函式 這可能是最可能的情況，因為物品會隨著時間的推移而磨損或退化。例如，看看會經歷磨損或疲勞的機械物品，例如隨著時間的推移，汽車輪胎上的橡膠會變薄。

遞減危險函式 在這種情況下，物品會得到改善；也就是說，物品隨著時間的推移不太可能失效。例如，一些金屬透過持續使用而“硬化”。此外，隨著錯誤的修復，軟體可能會得到改善。

浴缸型失效率 這種情況描述了許多自然系統和製成品。它是三種效應的綜合

*early failures due to defects
*late failures due to wear out
*accidents at a constant rate

人類生命特徵

MTTF = 800 年對應於失效率

或 1 年內 4000 人中 5 人死亡

指數可靠性分佈

回顧

這種分佈是最常用的可靠性模型。它對許多電子元件在其大部分壽命中有效，並且是 MIL-HDBK-217 的基礎。

無記憶特性

令 T = 物品壽命（隨機變數）

這是物品在存活到時刻 s 後失效分佈的條件機率，與全新的物品相同。

一個例子是保險絲。保險絲因電源浪湧而失效，但不會隨著時間的推移而減弱或退化。無記憶特性及其“用後如新”的假設在適用性上受到限制。為了簡單起見，指數分佈很容易被誤用

*statistical techniques are particularly tractable
*can add failure rates  
*field data often allow an estimation of only this one-parameter distribution

C 提供了對資料集進行指數性快速檢查

威布林分佈

瑞典物理學家沃洛迪·威布林在 1939 年引入了這種分佈。它是指數分佈的推廣，適用於對具有恆定、嚴格遞增和嚴格遞減危險函式的壽命進行建模。

請注意，威布林分佈可以匹配浴缸曲線的不同階段。

程式： 1. 收集失效資料。2. 將資料對威布林分佈進行最佳擬合

如果物品仍在磨合期

*Improve supplier quality
*Burn in the system longer
*Be more careful while manufacturing

在通用電氣，燈泡的燈絲即使只有 1% 的差異也會導致壽命縮短 25%。

如果歸因於隨機失效（事故）

*Make stronger components
*Derate – use components at less than the rated value
*Use newer technology (i.e. software control, longer-life transistors instead of vacuum tubes, etc.)
*Make components less environmentally sensitive (i.e. better packaging)
*NPN transistors <   PNP transistors

例如，鹵素燈和緊湊型熒光燈使用不同的技術來延長壽命。此外，白熾長壽命燈泡的額定功率可能如下進行

如果物品處於磨損區域

*Use stronger, longer-lived components
*Use newer technology, etc.
*Use a different architecture

系統可靠性度量

平均故障間隔時間 (MTTF) 這意味著只有大約 37% 的物品在超過 1 個 MTTF 後存活。但是，這種分佈有一個非常長的尾部

可修復系統

平均維修時間 (MTTR)

平均故障間隔時間 (MTBF)

請注意，MTBF 和 MTTF 通常被一些作者幾乎互換使用。

穩態可用性

例如，如果一個系統在兩年內只有 15 分鐘的停機時間，那麼

可靠性模型

對於串聯絡統

如果 A 工作且 B 工作且 C 工作且 D 工作，則系統工作。

例如，如果

在時間方面，

假設

觀察到，對於恆定失效率（指數）模型，可以使用威布林分佈

但這要困難得多。

冗餘

非常簡單
非常有吸引力
非常具有欺騙性

元件可靠性 = 0.9

如果任何一個元件工作，系統就工作，如果兩個元件都失效，系統就失效。R = 1-P(fail)

   = 1-P(first fails & second fails)
   = 1-P(first fails)P(second fails)
   = 1-P(.1)(.1)			 note independence
   = .99

示例：燈泡

串聯絡統

並聯系統

冗餘的用途

為了提高可靠性、可用性
消除單點故障

Important in military systems
Becoming important in commercial systems
Important in high availability systems in which the part being repaired must be shut down