一種基于Spark框架的并行FP-Growth挖掘算法
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評論(0)
Apriori和FPGrowth算法是頻繁模式挖掘中的經(jīng)典算法,由于Apriori存在更多缺陷,因此FPGrowth是單機(jī)計(jì)算環(huán)境下比較高效的算法。然而,對于非并行計(jì)算在大數(shù)據(jù)時(shí)代遇到的瓶頸,提出一種基于事務(wù)中項(xiàng)間聯(lián)通權(quán)重矩陣的負(fù)載平衡并行頻繁模式增長算法CWBPFP。算法在Spark框架上實(shí)現(xiàn)并行計(jì)算,數(shù)據(jù)分組時(shí)利用負(fù)載均衡策略,存入分組的數(shù)據(jù)是相應(yīng)頻繁項(xiàng)的編碼。每個(gè)工作節(jié)點(diǎn)將分組數(shù)據(jù)中每一個(gè)事物中項(xiàng)的聯(lián)通信息存入一個(gè)下三角聯(lián)通權(quán)重矩陣中,使用被約束子樹來加快每個(gè)工作節(jié)點(diǎn)挖掘頻繁模式時(shí)創(chuàng)建條件FPtree的速度,再用聯(lián)通權(quán)重矩陣避免每次挖掘分組中頻繁模式時(shí)對條件模式基的第一次掃描。由于聯(lián)通權(quán)重矩陣和被約束子樹的結(jié)合應(yīng)用于每一個(gè)工作節(jié)點(diǎn)的FPtree挖掘過程,因此提升了并行挖掘FPtree性能。通過實(shí)驗(yàn)表明,所提出的并行算法對大的數(shù)據(jù)有較高性能和可擴(kuò)展性。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
一種基于Spark框架的并行FP-Growth挖掘算法下載
相關(guān)電子資料下載
- 天數(shù)智芯主導(dǎo)的DeepSpark開源社區(qū)發(fā)布百大應(yīng)用開放平臺24.06版本 436
- spark運(yùn)行的基本流程 91
- Spark基于DPU的Native引擎算子卸載方案 180
- 百度前高管景鯤與朱凱華創(chuàng)立AI搜索公司,Genspark產(chǎn)品驚艷上線 458
- 關(guān)于Spark的從0實(shí)現(xiàn)30s內(nèi)實(shí)時(shí)監(jiān)控指標(biāo)計(jì)算 111
- “Spark+Hive”在DPU環(huán)境下的性能測評 | OLAP數(shù)據(jù)庫引擎選型白皮書(24版)DPU部分 212
- 芯科科技和Arduino合作創(chuàng)建SparkFun Thing Plus Matter板 234
- Sparkle撼與科技發(fā)布TBX-750FA-V2顯卡塢,支持3.5槽厚顯 243
- 如何注冊星閃Sparklink設(shè)備媒體接入層標(biāo)識、地址碼? 246
- 如何利用DPU加速Spark大數(shù)據(jù)處理? | 總結(jié)篇 661