文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.2016.03.035
中文引用格式: 敖銀輝,王翠芬. 基于連續(xù)時間MDP模型和隨機(jī)決策的維護(hù)周期[J].電子技術(shù)應(yīng)用,2016,42(3):123-126.
英文引用格式: Ao Yinhui,Wang Cuifen. Maintenance cycle based on continuous time MDP model and stochastic decision[J].Application of Electronic Technique,2016,42(3):123-126.
0 引言
近年來,隨著科學(xué)技術(shù)的迅速發(fā)展,各生產(chǎn)系統(tǒng)的結(jié)構(gòu)日益復(fù)雜化,各種高精度、集成化設(shè)備廣泛應(yīng)用于生產(chǎn)線。企業(yè)間的競爭越來越激烈,生產(chǎn)系統(tǒng)的復(fù)雜性、隨機(jī)性使得生產(chǎn)線的維護(hù)難度不斷提升,維護(hù)成本和強(qiáng)度隨之加大,合理的維護(hù)策略對獲得良好生產(chǎn)效益起著至關(guān)重要的作用。
目前國內(nèi)外關(guān)于生產(chǎn)線維護(hù)策略的研究成果很多,主要分為基于狀態(tài)的維護(hù)和基于時間的維護(hù)兩種形式[1]?;跔顟B(tài)的維護(hù)是在設(shè)備檢測技術(shù)迅速發(fā)展的基礎(chǔ)上實(shí)現(xiàn)的,通過檢測設(shè)備的狀態(tài)來判斷其出現(xiàn)故障的概率,確定實(shí)施方案,使損失降到最低。傳統(tǒng)的基于時間的維護(hù)多采用固定維修周期,這樣的方式操作簡單,維護(hù)人員和備件都可以做事先安排。隨著神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)理論與技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)與模糊邏輯的自適應(yīng)控制系統(tǒng)得到了廣泛應(yīng)用[2-5]。徐昕等人[6]對基于MDP動態(tài)系統(tǒng)學(xué)習(xí)控制理論、算法與應(yīng)用的發(fā)展前景進(jìn)行綜述。起初研究人員用離散的Markov鏈描述設(shè)備維護(hù)調(diào)度模型,之后,Gharbi等人提出用連續(xù)Markov鏈描述設(shè)備壽命的維護(hù)結(jié)構(gòu),通過控制設(shè)備生產(chǎn)率和預(yù)維修率使目標(biāo)函數(shù)達(dá)到最優(yōu)化[7]。Jin 等人[8]利用馬爾可夫決策過程描述設(shè)備維修或替換等維護(hù)活動的概率轉(zhuǎn)移函數(shù),得到一個生產(chǎn)系統(tǒng)的預(yù)防性維護(hù)優(yōu)化模型。陳靜靜提出利用MDP模型同時考慮劣化故障和隨機(jī)故障兩種故障類型,制定針對單臺設(shè)備工作排序、清洗和維修的長期維護(hù)優(yōu)化策略[9]。以上關(guān)于MDP模型的應(yīng)用多采用固定式轉(zhuǎn)移概率,在一定程度上反映了狀態(tài)的變化過程。根據(jù)生產(chǎn)實(shí)際可以考慮采用動態(tài)的轉(zhuǎn)移概率反映不同狀態(tài)下的狀態(tài)轉(zhuǎn)移情況。
本文將利用連續(xù)時間的MDP模型描述單臺設(shè)備工作狀態(tài),充分體現(xiàn)生產(chǎn)實(shí)際中設(shè)備工作、維護(hù)的連續(xù)性,綜合考慮轉(zhuǎn)移概率和實(shí)施方案選擇的動態(tài)性和隨機(jī)性,利用MATLAB實(shí)現(xiàn)優(yōu)化獲取最佳維護(hù)周期。在系統(tǒng)層維護(hù)中以混聯(lián)結(jié)構(gòu)為框架應(yīng)用該模型,對其實(shí)現(xiàn)優(yōu)化仿真,驗(yàn)證其可行性。
1 連續(xù)時間的MDP模型
作為描述動態(tài)隨機(jī)系統(tǒng)優(yōu)化決策問題的一類基本數(shù)學(xué)模型,MDP模型通常用四元組{S,A,P,R}表示,其中S為狀態(tài)空間,A為行為空間,P為轉(zhuǎn)移概率(滿足無后效性),R為回報(bào)函數(shù),在一定意義上可以理解為目標(biāo)函數(shù)。
定義行為策略π表示從狀態(tài)集合S到行為選擇概率的映射,即π:S→P(a)。
1.1 離散空間的MDP
1.2 連續(xù)時間的MDP
其中,r為回報(bào)函數(shù),對于其積分即為目標(biāo)函數(shù)。需要尋找最佳π使Vπ(x)達(dá)到最優(yōu)解。
實(shí)際生產(chǎn)系統(tǒng)中設(shè)備工作環(huán)境復(fù)雜,設(shè)備的自身工作狀態(tài)、運(yùn)轉(zhuǎn)環(huán)境、已維護(hù)次數(shù)等信息直接關(guān)系生產(chǎn)線的效益,合理的維護(hù)策略和預(yù)先安排能夠有效降低因突發(fā)事件帶來的巨大損失。MDP模型能夠形象地模擬不同維護(hù)策略對設(shè)備狀態(tài)的影響。對于整個生產(chǎn)系統(tǒng),要獲得最優(yōu)維護(hù)策略,首先需要研究每臺設(shè)備的維護(hù)策略。本文利用連續(xù)時間的MDP模型研究單臺設(shè)備維護(hù)策略,然后研究在交貨期、在制品數(shù)和成品率等因素的綜合影響下,系統(tǒng)層的維護(hù)策略。
2 單臺設(shè)備維護(hù)策略
在生產(chǎn)實(shí)際中設(shè)備的工作狀態(tài)具有連續(xù)性的特點(diǎn),因此,利用連續(xù)時間的MDP模型能夠更加合理地模擬設(shè)備退化過程。在連續(xù)時間的MDP模型中,狀態(tài)空間、行為空間均為連續(xù)空間,狀態(tài)轉(zhuǎn)移時間也是連續(xù)的。本文將在此基礎(chǔ)上進(jìn)一步考慮轉(zhuǎn)移概率的動態(tài)性和方案選擇的隨機(jī)性。本文將設(shè)備的狀態(tài)空間設(shè)定為連續(xù)空間,綜合考慮設(shè)備自身運(yùn)轉(zhuǎn)狀態(tài)、成品率、維修記錄等因素,利用連續(xù)函數(shù)擬合設(shè)備自然狀態(tài)下的退化過程,實(shí)現(xiàn)設(shè)備整個生命周期中狀態(tài)的連續(xù)性。
首先,根據(jù)生產(chǎn)實(shí)際數(shù)據(jù)擬合狀態(tài)空間x(τ),0<τ≤m。x(τ)是關(guān)于自然退化時間τ的連續(xù)函數(shù),表示設(shè)備的自然退化過程。根據(jù)實(shí)際情況,狀態(tài)空間x(τ)為遞減函數(shù)。隨著時間的延續(xù),當(dāng)?shù)竭_(dá)時刻m時設(shè)備將退化至某一劣化極限x(m),狀態(tài)x(m)表示設(shè)備出現(xiàn)故障,必須進(jìn)行故障性維修。
行為空間u(t)表示t時刻系統(tǒng)處于狀態(tài)x(τ)可采用的行為的集合。
且當(dāng) x(τ)=x(m)時u(t)=1,當(dāng)x(τ)<x(m)時設(shè)備處于無法修復(fù)狀態(tài),停止工作。
狀態(tài)轉(zhuǎn)移矩陣P(i,j,a)表示設(shè)備處于狀態(tài)x(i),采用方案a后,設(shè)備狀態(tài)轉(zhuǎn)移到x(j)的概率,其中i,j∈τ。轉(zhuǎn)移概率P(i,j,a)的隨機(jī)性表現(xiàn)為:
r(x(τ),u(t))表示設(shè)備處于狀態(tài)x(τ)時采用方案u(t)獲得的收益。π(u(t))表示所采用的一系列維護(hù)策略,即在每個維護(hù)時刻所采用的方案,目標(biāo)即為尋找一個最優(yōu)維護(hù)策略π*(u(t))使效益最大化。本文中維護(hù)策略π的選擇由轉(zhuǎn)移概率的動態(tài)性和方案選擇的隨機(jī)性體現(xiàn)。在此基礎(chǔ)上確定最優(yōu)維護(hù)周期T,使目標(biāo)函數(shù)達(dá)到最優(yōu)解。
平穩(wěn)策略的值函數(shù):
若u(t)≡0則設(shè)備狀態(tài)變化過程為服從函數(shù)x(τ),即設(shè)備自然退化過程。且有,若采用最優(yōu)維護(hù)策略π*(u(t)),則所對應(yīng)的狀態(tài)空間為x*(τ)。目標(biāo)即為尋找最優(yōu)維護(hù)策略π*(u(t))和最優(yōu)維護(hù)周期T*使系統(tǒng)效益最大化。
假設(shè)維護(hù)周期為l,采用一定維護(hù)策略后,單位時間產(chǎn)生的效益為h(t),其與狀態(tài)空間具有線性關(guān)系。則一個維護(hù)周期內(nèi)獲得效益:
其中g(shù)(a)表示選擇方案a的概率,x(i)表示設(shè)備所處狀態(tài)。最佳維護(hù)策略π*即使效益最大化的維護(hù)周期T和實(shí)施方案a,π*π(T,a1,a2,a3,…,an),an∈a。
目標(biāo)函數(shù):
其中,u1、u2分別表示設(shè)備進(jìn)行一次預(yù)防性維修和故障性維修的費(fèi)用,v1、v2分別表示設(shè)備進(jìn)行預(yù)防性維修和故障性維修的次數(shù)。
3 系統(tǒng)層維護(hù)策略
對于生產(chǎn)系統(tǒng),根據(jù)連接形式的不同各單臺設(shè)備所得效益在系統(tǒng)層效益中反映的程度不同。本文研究假設(shè),對于串聯(lián)結(jié)構(gòu)的效益,以串聯(lián)結(jié)構(gòu)中效益最大的單臺設(shè)備的效益作為評價(jià)標(biāo)準(zhǔn)。并聯(lián)結(jié)構(gòu)的效益,以各單臺設(shè)備效益之和為評價(jià)標(biāo)準(zhǔn)。
串聯(lián)系統(tǒng)效益:
在系統(tǒng)混聯(lián)結(jié)構(gòu)中,將并聯(lián)設(shè)備作為一個單元與串聯(lián)設(shè)備一起作為串聯(lián)結(jié)構(gòu)考慮。
混聯(lián)系統(tǒng)效益:
本文以混聯(lián)結(jié)構(gòu)為模型框架研究最優(yōu)維護(hù)策略,系統(tǒng)層維護(hù)策略模型滿足maxQπ(l),即獲得能夠使系統(tǒng)效益最大化的維護(hù)周期l和相應(yīng)的各個周期的實(shí)施方案。
4 案例仿真
為驗(yàn)證模型的可行性和有效性,本文采用以下算例進(jìn)行分析。如圖1所示,系統(tǒng)由5臺退化模型相同的設(shè)備組成,按統(tǒng)一周期進(jìn)行仿真。設(shè)備自然退化過程x(τ)通過擬合為8次多項(xiàng)式,極限工作時間8 000。一次故障性維修的費(fèi)用u2=5 000元,一次預(yù)防性維修的費(fèi)用u1=1 000元。轉(zhuǎn)移概率P(i,j,a)的分布如下:
實(shí)施方案選擇原則如下:
利用MATLAB建模仿真獲得如圖2結(jié)果。由圖2可知,在此模型假設(shè)基礎(chǔ)上,當(dāng)維護(hù)周期為1 700 h時效益最大化。維護(hù)周期較低時,頻繁的維護(hù)會增加維護(hù)費(fèi)用導(dǎo)致效益降低。維護(hù)周期太大時,設(shè)備維護(hù)不及時,故障停機(jī)的概率增加,設(shè)備利用率下降,導(dǎo)致效益下降。
由圖3可知,在設(shè)備運(yùn)轉(zhuǎn)初期(0<t<2 500),當(dāng)?shù)竭_(dá)維護(hù)周期時選擇正常運(yùn)轉(zhuǎn)(a=0)而不實(shí)施維護(hù)措施的概率為40%;在運(yùn)轉(zhuǎn)中期(2 500<t<5 600),選擇預(yù)防性維護(hù)(a=1)的概率為61%;在運(yùn)轉(zhuǎn)后期(t>5 600),選擇故障性維護(hù)(a=2)的概率為54%。由此可知,在設(shè)備運(yùn)行后期隨著設(shè)備可靠性的降低,故障維修的次數(shù)增加,符合生產(chǎn)實(shí)際,證明方案選擇假設(shè)可行。
本文以混聯(lián)結(jié)構(gòu)為框架應(yīng)用此模型,分析系統(tǒng)的設(shè)備利用率,與基于離散空間的MDP維護(hù)策略進(jìn)行比較。如圖4所示,采用連續(xù)時間MDP模型下的平均利用率為0.992 48,采用離散MDP模型的平均利用率為0.987 22。由此可知,連續(xù)時間MDP模型下的維護(hù)策略能夠有效提高設(shè)備利用率,從而在一定程度上提高效益,進(jìn)一步證明基于連續(xù)時間MDP模型的維護(hù)決策的有效性和可行性。
5 結(jié)論
在生產(chǎn)實(shí)際中設(shè)備狀態(tài)屬于連續(xù)變化量,本文采用連續(xù)時間的MDP模型模擬設(shè)備狀態(tài)連續(xù)變化過程下系統(tǒng)效益的連續(xù)變化過程。綜合考慮生產(chǎn)實(shí)際因素,利用生產(chǎn)實(shí)際數(shù)據(jù)模擬設(shè)備自然退化過程,將連續(xù)變化的設(shè)備狀態(tài)轉(zhuǎn)化為效益的變化過程,以效益最大化為目標(biāo)獲得最優(yōu)維護(hù)策略。系統(tǒng)層框架結(jié)構(gòu)在基于連續(xù)時間的MDP模型下,將生產(chǎn)系統(tǒng)的現(xiàn)實(shí)因素融于控制條件,進(jìn)一步控制維護(hù)策略,獲得較為合理的維護(hù)策略。仿真結(jié)果顯示,基于連續(xù)時間MDP模型應(yīng)用于生產(chǎn)系統(tǒng),可有效提高設(shè)備利用率和產(chǎn)量,改善系統(tǒng)性能,從而提高生產(chǎn)線效益。
參考文獻(xiàn)
[1] 吳洪飛.基于非齊次馬爾可夫過程的多動作動態(tài)維護(hù)策略研究[D].上海:上海交通大學(xué),2008.
[2] 王振雷.模糊神經(jīng)網(wǎng)絡(luò)理論及其在復(fù)雜系統(tǒng)中的應(yīng)用研究[D].沈陽:東北大學(xué),2002.
[3] 徐瑜,危韌勇.神經(jīng)網(wǎng)絡(luò)在控制系統(tǒng)中的應(yīng)用現(xiàn)狀及展望[J].電腦知識與技術(shù),2006(5):178-179,187.
[4] 徐英智.一種新型模糊神經(jīng)網(wǎng)絡(luò)及其在控制中的應(yīng)用[D].西安:西安電子科技大學(xué),2008.
[5] 馬俊偉.動態(tài)模糊神經(jīng)網(wǎng)絡(luò)在非線性系統(tǒng)中的應(yīng)用研究[D].沈陽:東北大學(xué),2010.
[6] 徐昕,沈棟,高巖青,等.基于馬氏決策過程模型的動態(tài)系統(tǒng)學(xué)習(xí)控制:研究前沿與展望[J].自動化學(xué)報(bào),2012(5):673-687.
[7] GHARBI A,KENNE′ J P.Maintenance scheduling and production control of multiple-machine manufacturing systems[J].Computers & Industrial Engineering,2005(48):693-707.
[8] JIN Y L,JIANG Z H,HOU W R.Optimal policy research on reliability-centered preventive maintenance for multicomponents equipment[J].Journal of Shanghai Jiaotong University,2006,40(12):2051-2056.
[9] 陳靜靜.基于MDP的半導(dǎo)體制造設(shè)備維護(hù)調(diào)度研究[J].電子測量技術(shù),2012(3):24-27.