from:
http://bbs.cechinamag.com/ 高可靠性是過程控制系統的第一要求。冗余技術是計算機系統可靠性設計中常采用的一種技術,是提高計算機系統可靠性的最有效方法之一。為了達到高可靠性和低失效率相統一的目的,我們通常會在控制系統的設計和應用中采用冗余技術。合理的冗余設計將大大提高系統的可靠性,但是同時也增加了系統的復雜度和設計的難度,應用冗余配置的系統還增加了用戶投資。因此,如何合理而有效的進行控制系統冗余設計,是值得研究的課題。
1:冗余技術
冗余技術概要:冗余技術就是增加多余的設備,以保證系統更加可靠、安全地工作。冗余的分類方法多種多樣,按照在系統中所處的位置,冗余可分為元件級、部件級和系統級;按照冗余的程度可分為1:1冗余、1:2冗余、1:n冗余等多種。在當前元器件可靠性不斷提高的情況下,和其它形式的冗余方式相比,1:1的部件級熱冗余是一種有效而又相對簡單、配置靈活的冗余技術實現方式,如I/O卡件冗余、電源冗余、主控制器冗余等。因此,目前國內外主流的過程控制系統中大多采用了這種方式。當然,在某些局部設計中也有采用元件級或多種冗余方式組合的成功范例。
控制系統冗余設計的目的:系統運行不受局部故障的影響,而且故障部件的維護對整個系統的功能實現沒有影響,并可以實現在線維護,使故障部件得到及時的修復。冗余設計會增加系統設計的難度,冗余配置會增加用戶系統的投資,但這種投資換來了系統的可靠性,它提高了整個用戶系統的平均無故障時間(MTBF),縮短了平均故障修復時間(MTTR),因此,應用在重要場合的控制系統,冗余是非常必要的。
二個部件組成的并聯系統(互為冗余)與單部件相比,平均無故障時間是原來的1.5倍。系統的可用性指標可以用兩個參數進行簡單的描述,一個是平均無故障時間(MTBF),另一個是平均修復時間(MTBR)。系統的可用性可用下式表示:
系統可用性=MTBF/(MTBF+MTBR)
當可用性達到99.999%時,系統每年停止服務的時間只有6分鐘。
2:控制系統冗余的關鍵技術
冗余是一種高級的可靠性設計技術, 1:1熱冗余也就是所謂的雙重化,是其中一種有效的冗余方式,但它并不是兩個部件簡單的并聯運行,而是需要硬件、軟件、通訊等協同工作來實現。將互為冗余的兩個部件構成一個有機的整體,通常包括以下多個技術要點:
1)信息同步技術
它是工作、備用部件之間實現無擾動(Bumpless)切換技術的前提,只有按控制實時性要求進行高速有效的信息同步,保證工作、備用部件步調一致地工作,才能實現冗余部件之間的無擾動切換。
在熱備用工作方式下,其中一塊處于工作狀態(工作卡),實現系統的數據采集、運算、控制輸出、網絡通訊等功能;而另一塊處于備用狀態(備用卡),它實時跟蹤工作卡的內部控制狀態(即狀態同步)。工作/備用卡件之間的正/負邏輯是互斥的,即一個為工作卡,另一個必定是備用卡;而且它們之間有冗余控制電路(又稱工作/備用控制電路)和信息通訊電路,以協調兩塊卡件同時而且有序地運行,保證對外輸入輸出特性的同一性,即對于用戶使用而言,可以認為只有一個部件。一般在設計中,工作、備用部件之間通過高速的冗余通訊通道(串行或并行)實現運行狀態互檢和控制狀態的同步(如組態信息、輸出閥位、控制參數等)。
2)故障檢測技術
為了保證系統在出現故障時及時將冗余部分投入工作,必須有高精確的在線故障檢測技術,實現故障發現、故障定位、故障隔離和故障報警。故障檢測包括電源、微處理器、數據通訊鏈路、數據總線及I/O狀態等。其中故障診斷包括故障自診斷和故障互檢(工作、備用卡件之間的相互檢查)
3) 故障仲裁技術和切換技術
精確及時地發現故障后,還需要及時確定故障的部位、分析故障的嚴重性,依賴前文提到的冗余控制電路,對工作、備用故障狀態進行分析、比較和仲裁,以判定是否需要進行工作/備用之間的狀態切換?刂茩嗲袚Q到冗余備用部件還必須保證快速、安全、無擾動。當處于工作狀態的部件出現故障(斷電、復位、軟件故障、硬件故障等)或者工作部件的故障較備用部件嚴重時,備用部件必須快速地無擾動地接替工作部件的所有控制任務,對現場控制不造成任何影響。同時要求切換時間應為毫秒級,甚至是微秒級,這樣就不會因為該部件的故障而造成外部控制對象的失控或檢測信息失效等等。另外,還需要盡快通過網絡通訊或就地LED顯示進行報警,通知用戶出現故障的部件和故障情況,以便進行及時維護。
4)熱插拔技術
為了保證容錯系統具有高可靠性,必須盡量減少系統的平均修復時間MTBR。要做到這一點,在設計上應努力提高單元的獨立性、可修復性、故障可維護性。實現故障部件的在線維護和更換也是冗余技術的重要組成部分,它是實現控制系統故障部件快速修復技術的關鍵。部件的熱插拔功能可以在不中斷系統正?刂乒δ艿那闆r下增加或更換組件,使系統平穩地運行。
5)故障隔離技術
冗余設計時,必須考慮工作、備用部件之間的故障應該做到盡可能互不影響或影響的概率相當小(0.01%),即可認為故障是隔離的。這樣可以保證:處于備用狀態的部件發生故障時,不會影響冗余工作部件或其他關聯部件的正常運行,保證冗余的有效性。
3:冗余技術在控制系統中的應用實現分析
通過控制系統冗余原理與方法的具體分析可以看到,系統的可用性在很大程度上取決于那些MTBF值較低而能對系統正常運行造成重大影響的部件,如主控制卡、網絡、電源、通訊轉發卡等。在系統設計中對關鍵部件進行冗余設計,可以大大提高系統的可用性。
下面以SUPCON JX-300X 為例分析冗余的實現方式。
SUPCON JX-300X 型集散控制系統[1]的各個部件的冗余,實現了從電源、主控制器、過程控制網絡,直至I/O卡件的冗余。
JX-300X型DCS采用全智能化、全數字化設計,在此基礎上成功地實現了卡件的熱插拔、故障診斷、信息同步等前文提到的各項技術。該系統采用典型控制系統三層模型,每個層次內均可冗余配置,而層次之間采用全冗余連接。即整個系統內以冗余過程控制網絡(SCnet)和冗余現場I/O總線(SBUS)為高可靠的連接通道,系統內各個部件的運行和部件之間點對點連接都可冗余。
根據控制系統內各個部件功能定位的不同,采用了具體方式有所差別,具體策略為:
1)主控制卡的冗余
主控制卡是整個系統的核心控制單元,完成系統的控制任務。而冗余技術各個設計要點在此得到充分應用;槿哂嗟膬蓧K主控制卡軟件、硬件完全一致,它們執行同樣的系統軟件和應用程序,在工作/備用冗余邏輯電路的控制下,其中一個運行在工作狀態(工作卡),另外一個運行在備用狀態(備用卡),如圖2所示。工作卡和備用卡之間具有公共的冗余邏輯控制電路和專用的高速對等冗余通訊通道,同時也可以通過I/O總線和過程控制網絡進行信息交互或故障診測;槿哂嗟闹骺刂瓶ǘ寄茉L問I/O和過程控制網絡,備用模式下的主控制卡執行診斷程序,監視工作卡的狀態,通過周期查詢工作卡件中的數據存儲器,接受工作卡發送的實時控制運行信息。備用處理器可隨時保存最新的控制數據,以保證工作/備用的無擾動切換,但工作模式下的主控制卡起著控制、輸出、實時過程信息發布,等決定性的作用(具有發言權)。冗余技術的關鍵在于實現信息同步,而信息同步的最終目的是為了實現冗余部件之間無擾動切換。我們把信息同步的方法分為“自然同步”和“強制同步”。
互為冗余的兩個主控制卡作為一個整體與外界交換信息(網絡通訊、I/O通訊 ),共享進入這個整體的輸入信息,這就是冗余部件的同一性(也可以稱為單一性)。對外輸出信息時工作卡掌握主動權,代表這個整體發言,即冗余的協同性。通俗地講,兩個互為冗余的部件,對于用戶使用和外部控制對象而言,可被視為一個整體。
為了保證互為冗余的兩個卡件具有平等獲取外部信息(I/O通訊、網絡通訊)的權利,冗余部件具有同樣的通訊接口,保證卡件內輸入信息的一致。冗余的兩塊卡件有各自的通訊通路,只要保證相同的輸入信息在兩個通信通路上同時進行傳輸,兩塊卡件就可以獲得相同的信息。這種憑借外部設備實現輸入信息的同步稱為“自然同步”!白匀煌健卑l生在冗余系統和外部設備之間。工作卡掌握主動權,代表整體發言,并通過冗余通信將各種狀態信息傳送給備用卡,達到控制任務的同步,這就是“強制同步”!皬娭仆健蓖ㄟ^冗余通信使備用卡內部控制狀態與工作卡保持一致,它發生在互為冗余的卡件之間。根據變量特性的不同,具體采用的同步方式也各不相同.
2) 電源系統冗余。
電源是整個控制系統得以正常工作的動力源泉,一旦電源單元發生故障,往往會使整個控制系統的工作中斷,造成嚴重后果。要使控制系統能夠安全、可靠、長期、穩定地運行,首先穩定的供電必須得到保證。JX-300X型DCS采用可熱插拔的冗余電源,正常工作時,兩臺電源各輸出一半功率,從而使每一臺電源都工作在輕負載狀態,有利于電源穩定工作。當其中一臺發生故障,短時由另一臺接替其工作,并報警。設計為可熱插拔的冗余電源,這樣系統維護時可以在不影響系統正常運行的情況下更換故障的電源。
3) 網絡系統冗余。
采用冗余網卡和冗余網絡接口。正常工作時,冗余的兩條數據高速通路同時并行運行,自動分攤網絡流量,并考慮了負載均衡的冗余設計,使系統網絡通信帶寬提高。當其中一路故障(網卡損壞或出現線路故障)時,另一路自動地承擔全部通信負載,保證通信的正常進行。
4)冷卻系統冗余。
利用控制柜內可自動切換的冗余風扇,對風扇和機柜內溫度進行實時監測,發現工作風扇故障或柜內溫度過高時都會自動報警,并自動啟動備用風扇。
5) 信息冗余。
除了硬件部件的冗余,JX-300X型DCS還采用了信息冗余技術,這也是提高系統可靠性的一個重要手段。信息冗余技術是指在通信過程中或存放組態信息(重要信息)時,利用增加的多余信息位提供檢錯甚至糾錯的能力。該系統中SBUS總線通訊和SCnet控制網絡都采用循環冗余碼校驗(CRC)方法。而重要組態信息(如系統配置)在主控制卡內的存放采用1:1冗余存放,使重要信息具備故障(出錯)自我恢復能力,保證系統運行過程中重要信息的安全性。
通過對以上關鍵部件的冗余設計,可以保證系統具有很高的可用性。