本發(fā)明公開(kāi)了一種Spark平臺Shuffle過(guò)程壓縮算法決策方法。本方法為:1)Spark平臺根據RDD的依賴(lài)關(guān)系生成有向無(wú)環(huán)圖DAG,并根據RDD的依賴(lài)關(guān)系將DAG劃分成不同的階段;2)根據用戶(hù)提供的所在集群的基礎數據以及目標作業(yè)信息,計算Shuffle過(guò)程用到壓縮算法的兩個(gè)不同過(guò)程不使用壓縮算法時(shí)以及使用不同壓縮算法時(shí)帶來(lái)的總收益、總消耗;3)根據不同壓縮配置下得到的所述總收益、總消耗計算執行該目標作業(yè)的整個(gè)Shuffle過(guò)程中對應的總開(kāi)銷(xiāo);然后根據總開(kāi)銷(xiāo)確定該集群運行該目標作業(yè)采用的配置組合。本發(fā)明保證了Spark平臺的穩定性,具有可擴展性、成本低、效率高等優(yōu)點(diǎn)。


