分析
設計下一代數(shù)據(jù)倉庫平臺,需要確定整個數(shù)據(jù)元素集的分析處理需求并對其劃分類別。因為我們可以在數(shù)據(jù)發(fā)現(xiàn)層次上創(chuàng)建分析,雖然這個層次主要受到業(yè)務消費者的關注和驅動,與企業(yè)應用的實際情況不符合,但是我們一樣可以在從數(shù)據(jù)倉庫獲得數(shù)據(jù)之后再創(chuàng)建分析。
圖1顯示了下一代數(shù)據(jù)倉庫平臺的分析處理過程。數(shù)據(jù)集成層是關鍵架構集成層,是我語義、報表和分析技術的組合,它基于語義知識框架,是下一代分析和商業(yè)智能的基礎。本章后面將介紹這個框架。
圖1 下一代數(shù)據(jù)倉庫平臺的分析處理過程
數(shù)據(jù)架構的最終確定是最耗費時間的任務,但是一旦完成,它就可以為物理部署提供堅實的基礎。物理部署將使用到前面介紹的技術,其中包括大數(shù)據(jù)和RDBMS系統(tǒng)。
物理組件的集成與架構
下一代數(shù)據(jù)倉庫將部署在異質基礎架構和能夠把傳統(tǒng)的結構化數(shù)據(jù)和大數(shù)據(jù)一起整合到一個可擴展運行環(huán)境的架構上。有幾種方法可以部署物理架構,但是每一種方法都有各自的優(yōu)點和不足。
下一代數(shù)據(jù)倉庫平臺的物理架構將會面對的主要挑戰(zhàn)包括數(shù)據(jù)加載、可用性、數(shù)據(jù)容量、存儲性能、可擴展性、數(shù)據(jù)的多樣變化查詢要求、運營成本和環(huán)境維護。下面將逐一介紹這些挑戰(zhàn)。
數(shù)據(jù)加載
由于沒有明確的格式、元數(shù)據(jù)或模式,大數(shù)據(jù)的加載過程只是直接查詢數(shù)據(jù)并將它存儲為文件。如果要處理系統(tǒng)的數(shù)據(jù)源,同時又要處理超大數(shù)據(jù)或微批處理數(shù)據(jù),那么這個任務可能會非常復雜。在這種情況中,可以用一個經(jīng)過配置和優(yōu)化的設備來處理這些極端情況,而不要用某一個專業(yè)部署。這種方法的缺點是需要定制架構配置,但是它仍然是可管理的。
平臺數(shù)據(jù)的持續(xù)處理可能會在一段時間里產生資源爭奪問題。這種情況常見于大文檔、視頻或圖像。如果這個需求對架構來說很重要,那么就適合使用一個軟設備,這樣在配置和安裝過程就可以避免這個問題。
大型環(huán)境的MapReduce配置和優(yōu)化可能很有難度,但是設備架構會提供一些參考架構安裝步驟,幫助我們簡化這個過程。
數(shù)據(jù)可用性
數(shù)據(jù)可用性一直是所有涉及處理和轉換最終用戶數(shù)據(jù)的系統(tǒng)的難題,大數(shù)據(jù)也不例外。Hadoop或NoSQL的優(yōu)點是能夠降低這個風險,同時使數(shù)據(jù)在獲取之后馬上就可用于分析。不足是需要快速加載數(shù)據(jù),因為沒有任何預轉換步驟。
數(shù)據(jù)可用性取決于SerDe或Avro層次的元數(shù)據(jù)特殊性。如果在獲取數(shù)據(jù)時對它們執(zhí)行了足夠詳細的分類,那么它們就可以馬上用于分析。
由于大數(shù)據(jù)層次的數(shù)據(jù)不存在更新,所以處理包含更新的新數(shù)據(jù)將產生重復數(shù)據(jù),我們必須處理這些重復數(shù)據(jù),才能減小它們對于可用性的影響。
數(shù)據(jù)容量
數(shù)據(jù)的內在特性決定了大數(shù)據(jù)容量很容易失去控制。在每個數(shù)據(jù)獲取周期中都一定要特別注意數(shù)據(jù)的增長。
數(shù)據(jù)停留需求各不相同,它主要取決于數(shù)據(jù)的性質、新近程度及其與業(yè)務的關系:
合規(guī)性需求:Safe Harbor、SOX、HIPAA、GLBA和PCI法規(guī)可能會影響數(shù)據(jù)安全性和存儲。如果計劃要使用這些數(shù)據(jù)類型,那么一定正確規(guī)劃。
法律授權:有一些事務數(shù)據(jù)集不能在線存儲,法院要求使用這些數(shù)據(jù)來發(fā)現(xiàn)集體訴訟的意圖。大數(shù)據(jù)基礎架構可以作為這種數(shù)據(jù)類型的存儲引擎,但是數(shù)據(jù)授權一定要符合一些需求和額外的安全要求。這種數(shù)據(jù)容量可能會影響整體性能,而且如果在大數(shù)據(jù)平臺上處理這些數(shù)據(jù)集,那么設備配置可以給管理員提供一些工具和方法,幫助他們將基礎架構劃分到不同的區(qū)域,為數(shù)據(jù)標記不同的區(qū)域標簽,從而減小對于風險和性能的影響。
數(shù)據(jù)探索和挖掘是一個非常普通的活動,它是在各個組織中實現(xiàn)大數(shù)據(jù)抓取的一個動因,它也會在數(shù)據(jù)處理之后產生大規(guī)模數(shù)據(jù)集。這些數(shù)據(jù)集需要保存在大數(shù)據(jù)系統(tǒng),然后定期清理和刪除中間數(shù)據(jù)集。這是各種組織經(jīng)常忽略的一個領域,而且可能在一段時間之后對性能產生嚴重影響。
存儲性能
在創(chuàng)建大數(shù)據(jù)系統(tǒng)時,磁盤性能是一個重要考慮因素,設備模型可以更多地關注存儲類型和分層架構。對于存儲基礎架構的長期規(guī)劃和增長管理而言,它可以作為一個起步工具。
如果在大數(shù)據(jù)處理中計劃組合使用內存、SSD和傳統(tǒng)存儲架構,那么不同層次數(shù)據(jù)的維持和交換都會花費大量的處理時間和處理周期。我們需要特別注意這個領域,設備架構專門為這種復雜存儲需求提供了一種參考。
運營成本
計算一個數(shù)據(jù)倉庫及其大數(shù)據(jù)平臺的運營開支是一項復雜的任務,運營成本包含基礎架構的初始采購費用、實現(xiàn)架構的勞力成本及持續(xù)維護所需要的基礎架構和勞力成本,包括獲取外部咨詢和聘請專家的費用。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網(wǎng)http://m.nttd-wave.com.cn/
本文標題:運用大數(shù)據(jù)技術集成數(shù)據(jù)倉庫架構
本文網(wǎng)址:http://m.nttd-wave.com.cn/html/consultation/10839712049.html