中文引用格式: 楊嘉佳,李正,鄭兒,等. 一種基于狀態(tài)預(yù)測的多線程數(shù)據(jù)過濾算法[J]. 電子技術(shù)應(yīng)用,2024,50(12):87-91.
英文引用格式: Yang Jiajia,Li Zheng,Zheng Er,et al. An accelerated regular expression matching algorithm based on multi-threading and state prediction[J]. Application of Electronic Technique,2024,50(12):87-91.
引言
在人工智能時代[1],正則表達(dá)式匹配技術(shù)有助于數(shù)據(jù)的預(yù)處理過濾,可為業(yè)務(wù)應(yīng)用提供更高質(zhì)量的數(shù)據(jù)。例如,正則表達(dá)式規(guī)則由于其展現(xiàn)出強(qiáng)大的表征能力,可從大規(guī)模數(shù)據(jù)中過濾出復(fù)雜且符合深度學(xué)習(xí)模型要求的數(shù)據(jù),提升模型的推理精度。
數(shù)據(jù)預(yù)處理吞吐率是衡量過濾算法的重要性能因素之一,反映出在特定環(huán)境下算法可以運(yùn)行的性能極限,決定其是否適用于高性能大數(shù)據(jù)預(yù)處理領(lǐng)域。因此,本文重點(diǎn)研究如何提高基于正則表達(dá)式匹配的數(shù)據(jù)過濾性能。
當(dāng)前,已涌現(xiàn)出許多優(yōu)秀的基于正則表達(dá)式技術(shù)的數(shù)據(jù)過濾算法[2],包括基于非確定型有限自動機(jī)(Nondeterministic Finite Automata, NFA)、基于確定型有限自動機(jī)(Deterministic Finite Automata, DFA)和基于混合自動機(jī)(Hybrid Finite Automata, Hybrid-FA)等實(shí)現(xiàn)方式。其中,因DFA的數(shù)據(jù)過濾性能較為穩(wěn)定,備受研究人員和開發(fā)人員的青睞。
然而,現(xiàn)有的正則表達(dá)式過濾算法性能較低,無法滿足大數(shù)據(jù)背景下的高性能過濾需求。因此,本文提出一種基于狀態(tài)預(yù)測的多線程數(shù)據(jù)過濾算法:通過向量指令字符值比較、多線程加速、狀態(tài)猜測等技術(shù),實(shí)現(xiàn)字符串的分段匹配處理,從而提高算法的吞吐率。
本文詳細(xì)內(nèi)容請下載:
http://theprogrammingfactory.com/resource/share/2000006254
作者信息:
楊嘉佳,李正,鄭兒,姚旺君,趙靜,關(guān)健
(中國電子信息產(chǎn)業(yè)集團(tuán)有限公司第六研究所,北京 100083)