Hadoop在一些企業(yè)部署時,往往會遇到多個用戶各自創(chuàng)建的數(shù)據(jù)處理工作的情況。這些工作都運(yùn)行在同一個Hadoop系統(tǒng)上時,他們之間可能會彼此沖突,爭奪可用的處理器資源。
David Clubb,在移動游戲平臺和市場公司Chartboost的高級數(shù)據(jù)工程師,試圖優(yōu)化大數(shù)據(jù)技術(shù),提升產(chǎn)品體驗時,也遇到了Hadoop集群管理的問題。“我們正在更新Hadoop軟件,并試圖將其遷移到新的集群,但并沒有找到監(jiān)控集群的好方法,”Clubb說道。“你可以看到工作在運(yùn)行,但你卻不能看到其所使用的資源。”
這樣顯然不太好,因為低優(yōu)先級的提取、轉(zhuǎn)換和加載過程和分析工作可能會占用CPU周期,而具有更高的優(yōu)先級的工作,例如實時的報告,所獲得的 CPU周期就會相對減少。與此同時,集群中的一些計算節(jié)點可能沒有被充分利用,Clubb說道。這個問題促使他實現(xiàn)了一套新的軟件,提供一個更便捷的窗口來觀察集群資源的活動和和實時優(yōu)化處理工具的工作負(fù)載,其中包括MapReduce、Hive和Spark等應(yīng)用程序。
用了YARN,卻在原地踏步
今年安裝的Hadoop系統(tǒng)每天處理10億多個事件,創(chuàng)建一個龐大的數(shù)據(jù)池,以供業(yè)務(wù)產(chǎn)品線經(jīng)理使用,通過這些數(shù)據(jù),產(chǎn)品經(jīng)理可以了解 Chartboost平臺被玩家和游戲開發(fā)者使用的情況。首先,Chartboost,運(yùn)行在Cloudera部署在Amazon Web Services 云環(huán)境上的Hadoop分布式平臺上,僅僅依靠開源框架內(nèi)置的Hadoop YARN調(diào)度程序調(diào)整其工作負(fù)載。但使用YARN,并沒有讓這家舊金山的公司能對高優(yōu)先級工作有什么特殊的處理,Clubb說。 他補(bǔ)充說道,Hadoop創(chuàng)建了一些信息,用于集群管理,但由于其開源的架構(gòu)的特性,數(shù)據(jù)被分到不同的地方。自制的腳本可以解決的一些管理問題,但還是不足以解決所有問題。
后來,Clubb發(fā)現(xiàn)創(chuàng)業(yè)公司Pepperdata能夠提供更深層次的視圖,通過該視圖可以觀察Hadoop集群的I / O、內(nèi)存和CPU使用情況。對于Chartboost更重要的是,Pepperdata軟件可以自動降低低優(yōu)先級工作的占用,給予高優(yōu)先級應(yīng)用程序額外的運(yùn)行空間,并確保集群中所有的計算節(jié)點盡可能被有效地利用。
“我們試圖找出管理工作負(fù)載的最好方式——你肯定不想過度使用或未充分使用你的節(jié)點,”Clubb說道。“Pepperdata讓硬件的使用更高效。它可以動態(tài)地調(diào)整工作。” 使用這個軟件,減少了公司所需集群節(jié)點的數(shù)量,節(jié)約了Chartboost在云計算上的花費。Clubb說,其Hadoop系統(tǒng)目前有22個節(jié)點,原來的部署時則有33個節(jié)點。
多重Hadoop管理選項
Pepperdata是許多供應(yīng)商中的一員,這些供應(yīng)商包括傳統(tǒng)的系統(tǒng)管理軟件制造商,Hadoop分布提供者和類似Concurrent之類的創(chuàng)業(yè)公司,他們采取不同的方式來進(jìn)行Hadoop集群管理流程的自動化。位于Sunnyvale, Calif的Pepperdata公司創(chuàng)始人之一,Chad Carson表示,基于處理優(yōu)先級的自適應(yīng)調(diào)整是Pepperdata軟件的關(guān)鍵元素。 當(dāng)公司把Hadoop大數(shù)據(jù)服務(wù)投入到生產(chǎn)使用中,IT團(tuán)隊可能需要將保證應(yīng)用程序的性能作為服務(wù)水平協(xié)議的一部分,Carson 說。他認(rèn)為,理解如何利用Hadoop集群資源,并根據(jù)所需進(jìn)行動態(tài)修改,對于企業(yè)來說會越來越重要。
Hadoop生態(tài)系統(tǒng)的新成員,比如Apache Spark處理引擎,可能會進(jìn)一步加劇集群管理問題,Carson補(bǔ)充說。“Spark能做的更多,也更快,”他說。”但它在使用中存在高峰期,你會看到 Spark的工作干擾到了其他工作。或者你會看到一個Spark或HBase工作負(fù)載被延遲所約束,或被低優(yōu)先級的MapReduce[工作]干涉。”
Hadoop集群管理中的“交通警察”
像Pepperdata一類的軟件可以幫助企業(yè)解決一些阻礙Hadoop使用的問題,Mike Matchett—位于Hopkinton, Mass的 Taneja Group公司分析師如是說。 “做一個應(yīng)用程序性能管理系統(tǒng)是一回事——而做一個可以動態(tài)地優(yōu)化系統(tǒng)的實時控制器是另外一碼事,”Matchett 說道。“如果部署了一個大的集群,且用于多重用途,那么你就需要一個“交通警察”。 對于Clubb來說,下一步可能會增加Spark的使用,以處理Hadoop數(shù)據(jù)。他提到,早前的工作,使用Pepperdata的軟件支持處理引擎對 Chartboost有了積極的結(jié)果。Clubb說,他有信心可以遷移更多的工作流到Spark,且不會遇到之前的集群管理問題,“更多工作意味著你更有可能耗盡所有的資源。”
作者:Jack Vaughan,主要關(guān)注數(shù)據(jù)管理領(lǐng)域的技術(shù)趨勢和動態(tài)。
翻譯:楊宏玉
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://m.nttd-wave.com.cn/
本文標(biāo)題:Hadoop集群管理上的新“絕招”
本文網(wǎng)址:http://m.nttd-wave.com.cn/html/solutions/14019319154.html