1引言
大數(shù)據(jù)無疑是2012年科學(xué)技術(shù)領(lǐng)域最熱門的一個術(shù)語。在IT領(lǐng)域,它也是繼高性能計算機、互聯(lián)網(wǎng)、網(wǎng)格計算、云計算之后又一被大眾所關(guān)注的技術(shù)術(shù)語。從某種意義上而言,大數(shù)據(jù)已經(jīng)遠遠超出了技術(shù)范疇,變成一個賦予各種意義的流行詞。大數(shù)據(jù)這三個字本身傳遞的語義信息很有限,“大”和“數(shù)據(jù)”都是極其常用的詞,兩個詞組合起來,字面上也沒有辦法直接表達出確切的特定含義。我們認為,這正是大數(shù)據(jù)這個詞語的妙處所在,它使得不同領(lǐng)域、不同背景、不同身份的人可以用同一個術(shù)語來表達自己的思想。也就是說,不同的人可以從不同的角度有各自不同的解讀,加之媒體連篇累犢的報道使得原本就不甚清晰的概念變得更加撲朔迷離。但總的來說,它至少給人們傳遞了一個重要的信息,那就是,信息技術(shù)的發(fā)展由“計算”轉(zhuǎn)向了“數(shù)據(jù)”。長期以來,數(shù)據(jù)庫處于數(shù)據(jù)管理領(lǐng)域的重要地位,因此有必要從數(shù)據(jù)庫的角度對大數(shù)據(jù)以及相對應(yīng)的大數(shù)據(jù)研究進行比較詳細的
解讀,厘清一些似是而非的概念,這就是我們撰寫本文的口的所在。
在開始從數(shù)據(jù)庫視角解讀之前,首先來看看其他專業(yè)人士群體對大數(shù)據(jù)的理解。談?wù)摯髷?shù)據(jù)的群體大約可以分為三類:第一類是戰(zhàn)略科學(xué)家,包括科技管理專業(yè)人士和政府官員。這很容易理解,數(shù)據(jù)中蘊含著無窮的價值,關(guān)乎社會經(jīng)濟和民生發(fā)展乃至國家安全,數(shù)據(jù)是重要的戰(zhàn)略資源,對數(shù)據(jù)的擁有以及對數(shù)據(jù)價值的有效開發(fā)決定一個企業(yè)、一個機構(gòu)和一個國家的核心競爭力。第二類是IT產(chǎn)品提供商,包括技術(shù)和產(chǎn)品提供商,信息系統(tǒng)集成和解決力一案提供商,還有信息服務(wù)提供商。大數(shù)據(jù)是個很親民的詞語,沒有拗口的發(fā)音和故弄玄虛的復(fù)雜語義,作為產(chǎn)品和服務(wù)的嶄新標(biāo)簽再合適不過。技術(shù)、產(chǎn)品和服務(wù)的演變是漸進的,在這個追逐日新月異變化的時代,IT產(chǎn)品提供商往往喜歡為產(chǎn)品打上時髦的標(biāo)簽,在當(dāng)前,大數(shù)據(jù)是廠商們的不二選擇。在此之前,digital internet、 web,grid 、 cloud等都被他們用來做過標(biāo)簽。第三類就是科技人員,主要是那些希望利用大數(shù)據(jù)使當(dāng)前從事的研究力一向取得新突破的科學(xué)研究和技術(shù)開發(fā)的專業(yè)人士。現(xiàn)在的科學(xué)研究和實用技術(shù)絕大多數(shù)都是和數(shù)據(jù)直接或問接相關(guān)的,把所從事的研究和開發(fā)工作歸結(jié)到大數(shù)據(jù)范疇,不但可提高層次,賦予研究和開發(fā)工作新的使命,也可以讓大眾更容易理解其意義。從這個意義上來說,大數(shù)據(jù)這個概念就像一把傘,可以把原本互不相交的概念罩在一起,形成一個新的概念。
我們把時問回退到2012年底,僅從12月當(dāng)月媒體的相關(guān)報道就可略見一斑,了解大數(shù)據(jù)深入人心的程度。據(jù)2012年12月2日的參考消息報道,在美國的2012十大流行詞評比中,“大數(shù)據(jù)”名列第二,第一是美國人最為關(guān)心的政治事件“財政懸崖”。關(guān)于大數(shù)據(jù)的描述,翻譯好的原文是這樣的,“最簡單講,這是用來形容如今產(chǎn)生的海量數(shù)據(jù)的 一種力一式,我們生活在大數(shù)據(jù)時代。具體一點來說,大數(shù)據(jù)所指的數(shù)據(jù)集既可以無邊無際得讓我們無從發(fā)掘有用的信息,也可以翔實全面得讓我們能做些全新的事情”。關(guān)于神州大地的大數(shù)據(jù)之熱難以詳述,僅通過當(dāng)月的兩則報道做以折射,據(jù)2012年12月14日光明日報報道,陜西西咸新區(qū)規(guī)劃國內(nèi)首家大數(shù)據(jù)產(chǎn)業(yè)園。報道稱,為迎接大數(shù)據(jù)時代的到來,推動大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,陜西省西咸新區(qū)洋西新城規(guī)劃了國內(nèi)首個大數(shù)據(jù)處理與服務(wù)專業(yè)園區(qū),在全國率先舉起大數(shù)據(jù)產(chǎn)業(yè)旗幟。就在同一天,在我國改革最前沿的廣東省的2012廣東互聯(lián)網(wǎng)大會上,廣東省通信管理局副局長蔡立志說了一句讓現(xiàn)場與會觀眾振奮的話,“(廣東)省委省政府、各級市縣政府對于信息互聯(lián)網(wǎng)很重視,省政府層面也要成立大數(shù)據(jù)局”。2012年12月15日的羊城晚報對此事的報道引起了廣泛關(guān)注。
在這樣的背景下,我們想以開放的態(tài)度,站在數(shù)據(jù)庫研究者的角度,從以下幾個力一面進行大數(shù)據(jù)的解讀。首先討論大數(shù)據(jù)是個什么樣的概念,說明它是如何誕生的,作為一個概念,它有什么樣的內(nèi)涵和外延。其次是討論與大數(shù)據(jù)相關(guān)的一些熱點問題,比如說,云計算與大數(shù)據(jù)的關(guān)系,大數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的關(guān)系,NoSQI二與大數(shù)據(jù)管理技術(shù)等。我們還會重點回顧Hadoop的發(fā)展歷史,分析其技術(shù)本質(zhì),從而深入分析它在大數(shù)據(jù)管理中的貢獻和地位,說明Hadoop只是大數(shù)據(jù)管理的一個成功案例,它和傳統(tǒng)數(shù)據(jù)庫一起為新形勢下的大數(shù)據(jù)管理提供了思路上的啟發(fā)。然后,通過對傳統(tǒng)數(shù)據(jù)庫發(fā)展歷史、根本口的以及發(fā)展成就的回顧,說明大數(shù)據(jù)和數(shù)據(jù)庫的發(fā)展是一脈相承的,大數(shù)據(jù)研究是傳統(tǒng)數(shù)據(jù)庫回到起點后的重新出發(fā),這個原點就是文件系統(tǒng)。最后,陳述我們對于大數(shù)據(jù)研究的理解,分別針對Web數(shù)據(jù)、決策數(shù)據(jù)和科學(xué)數(shù)據(jù)三類大數(shù)據(jù),說明大數(shù)據(jù)研究是典型的應(yīng)用驅(qū)動的,應(yīng)該根據(jù)現(xiàn)實的應(yīng)用需求確定可能的研究力一向和研究內(nèi)容。結(jié)束語部分給出了一些關(guān)于大數(shù)據(jù)研究的觀點。
2大數(shù)據(jù)概述
2.1什么是大數(shù)據(jù)?
這是個很自然的問題。從認識論的觀點來看人們總喜歡用類比的力一法來學(xué)習(xí),利用己有的一些概念來理解新的概念。海量數(shù)據(jù)(信息)是不是就是大數(shù)據(jù)?數(shù)據(jù)密集型計算所涉及的數(shù)據(jù)是不是就是大數(shù)據(jù)?非結(jié)構(gòu)化數(shù)據(jù)是不是就是大數(shù)據(jù)?在學(xué)界和業(yè)界都很受待見的“Hadoop +HDFS +Map/Reduce”是不是就代表了大數(shù)據(jù)技術(shù)的全部?還有,云計算和大數(shù)據(jù)有什么樣的關(guān)系?要回答這些問題,我們就從大數(shù)據(jù)概念的誕生談起。
2. 2大數(shù)據(jù)概念的誕生
大數(shù)據(jù)概念的提出可以追溯到20年以前,但引起關(guān)注是近幾年的事情。2008年9月4日《自然》(Nature)組織了一個名為“Big Data”的專題。2009年7月O'Reilly Media出版社出版了一本名為"Beautiful Data',的書。2009年10月微軟為紀念2007年1月在舊金山灣區(qū)大海中失蹤的圖靈獎獲得者Gray J,出版了一本名為“第四范式一數(shù)據(jù)密集的科學(xué)發(fā)現(xiàn)(The Fourth Paradigm-Data Intensive Scientific Discovery)"的著作。Gray J是數(shù)據(jù)庫領(lǐng)域獲得圖靈獎的第三位科學(xué)家,他在事務(wù)處理領(lǐng)域做出了杰出的貢獻,奠定了現(xiàn)代數(shù)據(jù)庫管理、系統(tǒng)理論和技術(shù)基礎(chǔ)。作為計算機科學(xué)家,Gray J生前在科學(xué)數(shù)據(jù)管理和分析力一面是開拓者和先鋒:NASA的太空和海洋觀測數(shù)據(jù)系統(tǒng)是他領(lǐng)導(dǎo)設(shè)計的;主持了著名的全球射電望遠鏡聯(lián)合觀測系統(tǒng)和外星生命探索系統(tǒng)的設(shè)計和實施;領(lǐng)導(dǎo)了谷歌公司的Google Earth系統(tǒng)的開發(fā)和使用。這就是為什么在他2007年1月28日駕駛游艇前往Farallone島的途中毫無跡象的失蹤后,美國海岸警衛(wèi)隊在立即開展了三天全面徹底專業(yè)的搜尋無果后宣布放棄,而NASA和Google還繼續(xù)用他們的系統(tǒng)進行了長達數(shù)月的搜尋。
在國際上,2011年2月11日發(fā)生的兩件事可以用來說明大數(shù)據(jù)在當(dāng)前科學(xué)研究和信息服務(wù)中的重要性。這一天在美國出版的《科學(xué)》(Science)雜志刊登了一個名為數(shù)據(jù)處理(Dealing with Data)的專輯,《科學(xué)》還聯(lián)合《科學(xué)一信號傳導(dǎo)》(Science; Signaling)《科學(xué)一轉(zhuǎn)化醫(yī)學(xué)》( Science;Translational Medicine)和Science Career、推出相關(guān)專題,其主題是圍繞口前科學(xué)研究數(shù)據(jù)的爆炸式增長展開討論,說明大數(shù)據(jù)對科學(xué)研究的重要性。也在這同一天,在美國很受歡迎的智力競答節(jié)目“危險邊緣(Jeopardy)”電視節(jié)口中IBM的“沃森”計算機以絕對優(yōu)勢戰(zhàn)勝兩名人類頂級選手,這使得繼“深藍”計算機1997年戰(zhàn)勝人類國際象棋大師加里·卡斯帕羅夫后再次引發(fā)關(guān)于機器能力的關(guān)注。和14年前的“深藍”相比,“沃森"除具有超群的計算能力外,更擁有超大規(guī)模的數(shù)據(jù)處理能力。
在學(xué)術(shù)界,2012年3月29日也是一個特殊的日子,在這一天,美國總統(tǒng)科技政策辦公室OSTP(Office of Science and Technology Policy)宣布了每年投資兩億美元的“大數(shù)據(jù)研究計劃(hig Data R&D Initiative)",這一整合了NSF, NIH等部門原有計劃的研究計劃在國際上產(chǎn)生了重大的影響。同一天,我國科技部發(fā)布的“‘十二五’國家科技計劃信息技術(shù)領(lǐng)域2013年度備選項口征集指南”把大數(shù)據(jù)研究(主要側(cè)重在存儲力一面)列在首位。美國大數(shù)據(jù)研究計劃的宣布使大數(shù)據(jù)熱達到一個高潮。
從以上的描述可以看出,大數(shù)據(jù)最初主要討論的是與科學(xué)發(fā)現(xiàn)有關(guān)的數(shù)據(jù),也就是我們說的科學(xué)數(shù)據(jù),這也是為什么包括我國政府在內(nèi)的各國政府高度重視的原因所在。在當(dāng)前,國家問的競爭主要是科學(xué)技術(shù)的競爭,如果大數(shù)據(jù)研究的部署有助于提升科技能力,相信每個國家都會大力支持。但是,“大數(shù)據(jù)”發(fā)展至今,己經(jīng)超越了科學(xué)數(shù)據(jù)的范疇,成為一個時髦的術(shù)語(Buzzword),成為工業(yè)界與學(xué)術(shù)界共同關(guān)注的熱點。從另外一個角度來看,“大數(shù)據(jù)”很好地概括了當(dāng)前數(shù)據(jù)管理領(lǐng)域問題的重要性和多樣性,說明數(shù)據(jù)問題在研究和應(yīng)用上具有空前的深度和廣度。也就可以說,大數(shù)據(jù)是個合適的傘(Umbrella),它有較廣的覆蓋面。大數(shù)據(jù)將信息技術(shù)的重點轉(zhuǎn)移到數(shù)據(jù)力一面,但己經(jīng)大大超越了傳統(tǒng)數(shù)據(jù)庫的理念。
2. 3大數(shù)據(jù)概念的內(nèi)涵和外延
大數(shù)據(jù)這一概念的內(nèi)涵可以用大數(shù)據(jù)的4V特點:Volume、Variety、Velocity Veracity,來描述。第一個V是說的數(shù)據(jù)量,從TB級別躍升到PB級別或更高的EB級別。第二個V的含義是數(shù)據(jù)類型繁多,來源各異。來自網(wǎng)絡(luò)的網(wǎng)頁、日志、圖片,來自傳感器的監(jiān)測數(shù)據(jù)、視頻信號、地理位置信息,來自日常運營系統(tǒng)的各類信息等等組成了一個大數(shù)據(jù)集。第三個V是講處理速度或是說響應(yīng)速度。很多應(yīng)用提出了實時響應(yīng)的要求,或是實時反應(yīng)(Human Realtime)的要求,比如說一些公共設(shè)施的安全監(jiān)測系統(tǒng)和服務(wù)系統(tǒng)的安全監(jiān)察系統(tǒng),就需要及時地反應(yīng)。第四個V是講數(shù)據(jù)的可信性和可用性,產(chǎn)生數(shù)據(jù)的技術(shù)手段和力一式越來越多,設(shè)備的準確性、系統(tǒng)的一致性會對數(shù)據(jù)的質(zhì)量產(chǎn)生重要的影響,特別是各種UUC:(用戶生成內(nèi)容)的質(zhì)量問題更加嚴重,如何保證數(shù)據(jù)的可用和可信至為關(guān)鍵。這些都是傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)倉庫時代沒有的問題,這些特點決定了大數(shù)據(jù)的內(nèi)涵。
描述一個概念的外延往往是通過枚舉那些屬于這一概念的實例來進行的。可以認為,與應(yīng)用密切相關(guān)的各類數(shù)據(jù)都屬于大數(shù)據(jù)范疇,大數(shù)據(jù)強調(diào)支持實際應(yīng)用所涉及到的多個來源且相互關(guān)聯(lián)的大量、高速、異構(gòu)數(shù)據(jù)。從生產(chǎn)生活中的用途來分,所涉及的生產(chǎn)數(shù)據(jù)、設(shè)計數(shù)據(jù)、統(tǒng)計數(shù)據(jù)是大數(shù)據(jù);用類型來分,數(shù)據(jù)庫和數(shù)據(jù)倉庫中的結(jié)構(gòu)化數(shù)據(jù)、文件系統(tǒng)中的文本、多媒體數(shù)據(jù)、各種文檔數(shù)據(jù)也都是大數(shù)據(jù);大數(shù)據(jù)的例子還包括網(wǎng)絡(luò)日志、RFID數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、互聯(lián)網(wǎng)搜索索引、呼叫詳細記錄等。諸如天文學(xué)、大氣科學(xué)、基因組學(xué)、生物地球化學(xué)、生命科學(xué)和其他復(fù)雜或跨學(xué)科的科研實驗和觀測數(shù)據(jù),軍事偵察、醫(yī)療記錄、攝影檔案、視頻檔案和大規(guī)模的電子商務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)都是大數(shù)據(jù)。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、智能手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的力一式。其實,世界上凡是可以表達出來的信息都是數(shù)據(jù),當(dāng)為了一個具體的應(yīng)用而需要把大量的不同類型、質(zhì)量各異的數(shù)據(jù)及時進行處理時,這些數(shù)據(jù)就進入了大數(shù)據(jù)的范疇。
2. 4大數(shù)據(jù)的分類
要討論上述種類繁多的數(shù)據(jù),從認識論的觀點出發(fā),首先就是要建立數(shù)據(jù)譜系,進行分類。對大數(shù)據(jù)進行分類很有必要,這是確保大家在討論同一目標(biāo)的前提。我們認為,大數(shù)據(jù)大致可以分為三類:Web數(shù)據(jù)、決策數(shù)據(jù)和科學(xué)數(shù)據(jù)。顧名思義,Web數(shù)據(jù)是與Web相關(guān)的數(shù)據(jù),包括網(wǎng)頁、鏈接、日志等具體類型,門戶網(wǎng)站、搜索引擎、社交網(wǎng)絡(luò)、電子商務(wù)等以Web形式呈現(xiàn)或以Web為載體的新型信息服務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)大多可以歸納為此類型。決策數(shù)據(jù)主要指以前由傳統(tǒng)的數(shù)據(jù)庫和數(shù)據(jù)倉庫管理的數(shù)據(jù),也即商務(wù)智能(BI)數(shù)據(jù)。科學(xué)數(shù)據(jù)是指各種科學(xué)活動中所產(chǎn)生的數(shù)據(jù),包括科學(xué)實驗數(shù)據(jù)、科學(xué)觀測數(shù)據(jù)、科學(xué)文獻數(shù)據(jù)、設(shè)計數(shù)據(jù)等等,非領(lǐng)域?qū)<译y以染指,即使IT專家自創(chuàng)一套,也很難得到領(lǐng)域?qū)<业恼J可,
生物信息學(xué)就是一個例子。
按照以上分析,我們可以把大數(shù)據(jù)的分類用圖1來示意。
圖1.大數(shù)據(jù)的分類
就Web應(yīng)用而言,傳統(tǒng)的電子商務(wù)系統(tǒng)和搜索引擎應(yīng)用以及正在興起的社會網(wǎng)絡(luò)和社會計算是典型的“以數(shù)據(jù)為中心”的應(yīng)用。電子商務(wù)和搜索引擎廠商己經(jīng)經(jīng)過了早期的粗放式的、僅僅依靠創(chuàng)新的商業(yè)模式就取得成功的發(fā)展階段,他們的核心業(yè)務(wù)己經(jīng)變成了商品推薦、客戶關(guān)系管理、促銷策略設(shè)計、廣告關(guān)鍵字競標(biāo)、廣告投放等。而這些業(yè)務(wù)完全依賴于海量的客戶行為數(shù)據(jù)以及Web內(nèi)容和結(jié)構(gòu)數(shù)據(jù)的分析。社會網(wǎng)絡(luò)和社會計算則是更加綜合性的應(yīng)用,交互性更強,數(shù)據(jù)的產(chǎn)生和來源也更多。其成功的商業(yè)模式必然需要精細的快速的數(shù)據(jù)處理和分析。除了商業(yè)應(yīng)用外,社會網(wǎng)絡(luò)和社會分析對于政府把握民眾意愿、了解社會熱點問題、改善管理、及時化解社會矛屑等具有重要的意義。
在商務(wù)智能力一面,隨著技術(shù)的進步和理念的更新,大型數(shù)據(jù)中心的建設(shè)己被大型跨國跨地域企業(yè)、政府服務(wù)機構(gòu)提上議事日程。在我國,中石油、中石化等大型企業(yè)以及各大銀行己有各自的數(shù)據(jù)中心。業(yè)界提供的服務(wù)計算和云計算架構(gòu)以及相應(yīng)的技術(shù)為大型數(shù)據(jù)中心的建設(shè)提供了技術(shù)途徑,政府或半政府的機構(gòu)為推進中小型企業(yè)這一創(chuàng)新群體的發(fā)展也正著手建設(shè)公共的云計算數(shù)據(jù)平臺,把中小型企業(yè)從繁重的信息管理中解脫出來,以便他們降低成本,集中力量發(fā)展各自的主業(yè)。在我國,物聯(lián)網(wǎng)技術(shù)的推廣應(yīng)用所帶動的智能電網(wǎng)、智能交通、智能醫(yī)療保健等事業(yè)的發(fā)展依賴于大型數(shù)據(jù)中心和新型商務(wù)智能能力的建設(shè)。
針對科學(xué)研究,科學(xué)實驗數(shù)據(jù)的共享以及跨地域的科學(xué)協(xié)作研究在互聯(lián)網(wǎng)時代己經(jīng)成為一個潮流。傳感器網(wǎng)絡(luò)等各種數(shù)字化科學(xué)數(shù)據(jù)采集手段的發(fā)展使得科學(xué)實驗數(shù)據(jù)的產(chǎn)生更加便利、全面和及時。在互聯(lián)網(wǎng)環(huán)境下對海量的科學(xué)數(shù)據(jù)和科學(xué)文獻進行集成和分析并支持協(xié)同合作研究是我們面臨的一個重要問題。
大數(shù)據(jù)研究的顯著特征是它與應(yīng)用密切相關(guān)。我們用圖2來說明大數(shù)據(jù)的應(yīng)用場景。
圖2.大數(shù)據(jù)的應(yīng)用
3與大數(shù)據(jù)相關(guān)的幾個熱點問題
人們經(jīng)常會問,大數(shù)據(jù)是不是就是非結(jié)構(gòu)化數(shù)據(jù)?云計算與大數(shù)據(jù)有什么關(guān)系?NoSQL二是不是就是處理大數(shù)據(jù)的技術(shù)等等問題。從認識論的觀點來看,這是自然而然的問題,通過與熟悉事物的比較來認識陌生的事物是人們常用的學(xué)習(xí)力一法。這也是為什么不同知識背景的人對同一事物有不同認識的原因所在。本節(jié)我們嘗試回答上面提到的這些問題。
3. 1非結(jié)構(gòu)化數(shù)據(jù)與大數(shù)據(jù)
首先我們要弄清楚什么是非結(jié)構(gòu)化數(shù)據(jù)。個平凡的答案是:那些除了結(jié)構(gòu)化數(shù)據(jù)以外的數(shù)據(jù)就是非結(jié)構(gòu)化數(shù)據(jù)。這樣問題又變成了,什么是結(jié)構(gòu)化數(shù)據(jù)?這便觸及到了數(shù)據(jù)庫的核心。
從某種意義上來說,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)并無截然的界限,而是因為人們對數(shù)據(jù)的認識程度不同所致。數(shù)據(jù)本來就是對客觀事物的一種表達和表示,結(jié)構(gòu)化數(shù)據(jù)指的就是那些有組織的數(shù)據(jù),也就是那些表示可以按照某個模型組織起來的數(shù)據(jù)。所以說結(jié)構(gòu)化數(shù)據(jù)就是數(shù)據(jù)可建模,通過數(shù)據(jù)建模進行語義抽象,從而達到模型和實例分離的口的。在數(shù)據(jù)庫領(lǐng)域,這是一個基本理念,要有一個數(shù)據(jù)模型。數(shù)據(jù)庫人說的數(shù)據(jù)模型不是泛泛而說的那種模型,正如數(shù)據(jù)庫本身也不是泛泛的概念,它們都有獨特的含義和理論背景。數(shù)據(jù)庫中討論的數(shù)據(jù)模型由三部分組成,分別是數(shù)據(jù)結(jié)構(gòu)、操作符、完整性約束。數(shù)據(jù)結(jié)構(gòu)就是數(shù)據(jù)字面上的表示,或者說詞法意義上的表示,數(shù)據(jù)的語義是通過數(shù)據(jù)結(jié)構(gòu)上可支持的操作符,以及這些數(shù)據(jù)結(jié)構(gòu)在變化過程中所需遵循的完整性約束來體現(xiàn)的。這在關(guān)系數(shù)據(jù)庫中體現(xiàn)得非常貼切。二維表結(jié)構(gòu)就是關(guān)系模型的數(shù)據(jù)結(jié)構(gòu),簡單明了;關(guān)系代數(shù)操作就是二維表數(shù)據(jù)結(jié)構(gòu)上的操作符,一共有五個基本操作符,相當(dāng)于操作原語,其他的所有復(fù)雜操作均可以由這五個基本操作組合完成,也就是通過構(gòu)建一個關(guān)系表達式來完成。關(guān)系數(shù)據(jù)模型中的完整性約束,除了我們所知道的實體完整性、參考完整性等可以命名的完整性以外,還有很多其他完整性,他們代表了數(shù)據(jù)庫實例在修改時要遵循的原則。實體完整性和參考完整性可以通過主鍵和外鍵的形式來說明,其他類型的完整性約束在關(guān)系數(shù)據(jù)庫的數(shù)據(jù)定義語言中可以通過斷言、觸發(fā)器的形式來說明。關(guān)系數(shù)據(jù)庫中的范式理論和函數(shù)依賴也是關(guān)于完整性約束的,是一種很漂亮的語義抽象。函數(shù)依賴這一類廣泛的完整性約束很大程度上通過數(shù)據(jù)庫模式設(shè)計來體現(xiàn),我們在數(shù)據(jù)設(shè)計中追求Royce-Codd范式和第三范式,其本質(zhì)就是當(dāng)
設(shè)計出的關(guān)系模式達到這些范式級別后,屬性問的函數(shù)依賴關(guān)系就蘊含在其中了,不需要再在數(shù)據(jù)定義語言中去顯式說明。這是為什么說關(guān)系數(shù)據(jù)模型優(yōu)美漂亮的一個重要原因。當(dāng)然,關(guān)系數(shù)據(jù)模型具備的集合論和一階謂詞邏輯數(shù)學(xué)基礎(chǔ)也是一個重要原因。
那么,為什么數(shù)據(jù)的結(jié)構(gòu)化如此重要?這個問題就像為什么結(jié)構(gòu)化程序設(shè)計、強類型程序設(shè)計語言很重要一樣。數(shù)據(jù)有了結(jié)構(gòu)以后,數(shù)據(jù)管理可以簡單化,因為結(jié)構(gòu)化數(shù)據(jù)雖然實例(相當(dāng)于關(guān)系數(shù)據(jù)庫中的Instance)很多,但往往容器(相當(dāng)于關(guān)系數(shù)據(jù)庫中的Schema)很少,通過模式(Schema)來管理大規(guī)模的數(shù)據(jù)要容易很多。此外,有了模式級別的元數(shù)據(jù),對于數(shù)據(jù)上的各種操作可以通過表達式等價的變換來進行有效優(yōu)化,從而保證查詢處理的高效性,讓人們擺脫對數(shù)據(jù)庫內(nèi)部細節(jié)的了解。
相對數(shù)據(jù)庫中結(jié)構(gòu)化的數(shù)據(jù),有關(guān)非結(jié)構(gòu)化數(shù)據(jù)的研究也一直沒有停息過。數(shù)據(jù)抽取、數(shù)據(jù)抽象等都是在非結(jié)構(gòu)化數(shù)據(jù)上進行語義抽象的嘗試。我們所熟悉的文本數(shù)據(jù)上的文本檢索系統(tǒng)(TRS) ,信息檢索(IR)、自然語言處理(NLP ),以及音頻、視頻、圖像等其他多媒體的處理力一法研究,都是長期以來一直在非結(jié)構(gòu)化數(shù)據(jù)上的探索。我們耳熟能詳?shù)奶卣鬟x擇或特征抽取,也就是指在非結(jié)構(gòu)化數(shù)據(jù)上進行語義抽取。所以,非結(jié)構(gòu)化數(shù)據(jù)對我們而言毫不陌生,并不是因為有了大數(shù)據(jù),大家才恍然大悟要開始對非結(jié)構(gòu)化數(shù)據(jù)進行研究。 突然之問會有人覺得非結(jié)構(gòu)化數(shù)據(jù)特別重要,理由就是,有統(tǒng)計顯示我們這個世界上百分之八十的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),它們無法整齊劃一地存儲到結(jié)構(gòu)嚴格的表格行列中。值得提醒的是,很多事情都遵循所謂的80-20規(guī)則。應(yīng)用到大數(shù)據(jù)上面,得出的結(jié)論就是,百分之八十的非結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生百分之二十的價值,而百分之二十的結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生百分之八十的價值。這個現(xiàn)象有其合理性,它說明了為什么人們把研究熱情轉(zhuǎn)向非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)產(chǎn)生了絕大部分的價值,但其價值幾乎挖掘殆盡。而絕大多數(shù)的非結(jié)構(gòu)化數(shù)據(jù)雖然只產(chǎn)生小部分的價值,卻還是一個有待深入挖掘的“金礦”。這里我們還想特別指出,非結(jié)構(gòu)化數(shù)據(jù)的長尾現(xiàn)象。隨著非結(jié)構(gòu)化數(shù)據(jù)研究的深入,相信一部分非結(jié)構(gòu)化數(shù)據(jù)會被納或靠近結(jié)構(gòu)化數(shù)據(jù)范疇,從大量針對應(yīng)用問題的解決力一案中抽象出非結(jié)構(gòu)化數(shù)據(jù)的組織模式、結(jié)構(gòu)和模型,這意味著其使用價值被允分挖掘;從技術(shù)上而言,就意味著管理這些非結(jié)構(gòu)化數(shù)據(jù)的理論和技術(shù)會趨向成熟。
我們用圖3表示非結(jié)構(gòu)化數(shù)據(jù)的長尾現(xiàn)象,其中橫坐標(biāo)為數(shù)據(jù)量/非結(jié)構(gòu)化程度,縱坐標(biāo)為不低于該非結(jié)構(gòu)化程度的數(shù)據(jù)量產(chǎn)生的價值。非結(jié)構(gòu)化數(shù)據(jù)量在激增,人們對大數(shù)據(jù)的興趣也在日益濃厚。
圖3.非結(jié)構(gòu)化數(shù)據(jù)研究的長尾現(xiàn)象
3. 2云計算與大數(shù)據(jù)
近幾年來,云計算在我國的發(fā)展風(fēng)起云涌、方興未艾。從技術(shù)上而言,云計算被認為是自計算機出現(xiàn)以來,繼大型主機、個人電腦、互聯(lián)網(wǎng)之后信息技術(shù)領(lǐng)域的最新一次重大變革。 Amazon和Google是其始作俑者。隨著云計算技術(shù)的突破和應(yīng)用的推廣,我們可望實現(xiàn)一種嶄新的計算模式,進而影響人們生產(chǎn)和生活的各個力一面。我國作為新興的發(fā)展中大國,信息化作為倍增器,一直在經(jīng)濟和社會發(fā)展中起著重要的作用,尤其是在當(dāng)前經(jīng)濟轉(zhuǎn)型發(fā)展的關(guān)鍵時期,云計算作為新型信息化的手段和模式正在被創(chuàng)造性地應(yīng)用。政府部門、電信運營商、交通物流、科學(xué)研究、文化傳媒、醫(yī)療衛(wèi)生、教育培訓(xùn)等都己開始嘗試用云計算的模式進行信息化創(chuàng)新實踐。
雖然云計算和大數(shù)據(jù)是沿著不同道路發(fā)展而來的,兩者在技術(shù)和應(yīng)用上有著相輔相成的關(guān)系,云計算強調(diào)系統(tǒng)提供服務(wù)的力一式,它提供的服務(wù)離不開它所能承載的大數(shù)據(jù);為了解決大數(shù)據(jù)的挑戰(zhàn),云計算架構(gòu)和模型是一個可行的力一案。云計算遭遇大數(shù)據(jù),這是時代發(fā)展的必然趨勢。
3. 3 NoSQL與大數(shù)據(jù)
NoSQI二運動近幾年風(fēng)頭正勁,它是在大數(shù)據(jù)概念風(fēng)靡之前就己經(jīng)出現(xiàn)的一個現(xiàn)象,可以看作是大數(shù)據(jù)風(fēng)暴的前奏。這場運動最終會對數(shù)據(jù)庫的發(fā)展產(chǎn)生什么樣的影響?NoSQI二會終結(jié)關(guān)系數(shù)據(jù)庫嗎?是否會有基于非關(guān)系型數(shù)據(jù)庫的廠商異軍突起,改變市場的格局呢?下面,我們試著回答這些問題。
首先,NoSQL二是一個非常模糊的概念,泛指一切和傳統(tǒng)關(guān)系數(shù)據(jù)庫或關(guān)系—對象數(shù)據(jù)庫不同的技術(shù)。它包括了非關(guān)系數(shù)據(jù)模型(也被稱為Norrschematic數(shù)據(jù)庫、非結(jié)構(gòu)化數(shù)據(jù)庫等等)、非ACID事務(wù)模型、分析型和搜索型應(yīng)用、大規(guī)模集群上的DBMS或類DBMS實現(xiàn)等很多概念。No-SQL二和傳統(tǒng)RDBMS之問可能更多的還是互補關(guān)系。RDBMS不適合一些新興的應(yīng)用,但在一些傳統(tǒng)領(lǐng)域,如金融、電信,仍然能很好地工作。No-SQL二的應(yīng)用口標(biāo)仍然很分散—不同的應(yīng)用對NoSQL二的不同技術(shù)有不同的需求。因此,現(xiàn)在我們對NoSQL, DBMS還很難給出一個完整的定義,很難說這樣的DBMS能夠彌補所有RDBMS的不足、適用于所有RDBMS不適用的環(huán)境。從技術(shù)上看,通用的NoSQL, DBMS的實現(xiàn)也有很大的難度。但另一力一面,隨著應(yīng)用的發(fā)展,RDBMS不適用的環(huán)境正越來越多,這將是非關(guān)系型數(shù)據(jù)庫廠商的機會(但同時也是RDBMS發(fā)展的機會)。當(dāng)然,這里還有很多技術(shù)以外的因素。
數(shù)據(jù)庫系統(tǒng)的先驅(qū),著名數(shù)據(jù)庫學(xué)者Stone-braker M教授對于NoSQL二有這樣的總結(jié):No-SQL二適用于非事務(wù)型和可交換(Commutative)的單記錄事務(wù)處理,但它不適用于新型OLTP應(yīng)用。因為系統(tǒng)類型很多,應(yīng)該針對應(yīng)用選擇合適的系統(tǒng)。此外,NoSQL二系統(tǒng)的查詢語言與SQL二非常類似。他承認NoSQL二系統(tǒng)的成功,但也認為N o-SQL二并不適用于所有應(yīng)用,不是大數(shù)據(jù)處理的全部技術(shù)。這正是新型面向在線事務(wù)處理OLTP應(yīng)用的數(shù)據(jù)庫(NewsQL,)的出發(fā)點,NewsQL二代表 一類現(xiàn)代RDBMS,旨在針對Web應(yīng)用中的OLTP工作負載提供NoSQL二系統(tǒng)所能達到的可擴展性,而保持傳統(tǒng)單一節(jié)點數(shù)據(jù)庫系統(tǒng)的ACID事務(wù)特性。
3.4 Hadoop與大數(shù)據(jù)
Hadoop在處理網(wǎng)頁數(shù)據(jù)等力一面取得了巨大成功,經(jīng)過幾年的發(fā)展,從一門邊緣技術(shù)成長為一種事實上的標(biāo)準,甚至在大數(shù)據(jù)領(lǐng)域出現(xiàn)言必稱Hadoop的現(xiàn)象,Hadoop儼然成為了大數(shù)據(jù)的代名詞。我們有必要專門來回顧一下Hadoop的發(fā)展歷史和成功經(jīng)歷。21世紀初,谷歌公司的幾位年輕研究人員用廉價PC搭建了大型的MPP系統(tǒng),成功解決了搜索引擎所需要的大型文件系統(tǒng)的管理和操作問題,隨后分別于2003年、2004年和2006年在操作系統(tǒng)兩個著名的學(xué)術(shù)會議SOSP和OSDI上發(fā)表了有關(guān)GFS (Google文件系統(tǒng))、Map/Reduce(編程環(huán)境)和BigTable(數(shù)據(jù)模型)的論文。
這三篇奠基性的論文促成了Hadoop的誕生。2004年,Cutting D和Cafarella M J根據(jù)Google Lab論文實施,取名Hadoopo Cloudera公司推出了Hadoop商用版(Apache開源版)。2005年秋天,Hadoop由Apache作為Lucene的子項口Notch的一部分正式引入。隨后在2006年3月Map/Reduce和Notch Distributed File System(NDFS )分別被納入Hadoop的項口中。到了2006年,Yahoo推出了WEB-scale Hadoop !。隨著應(yīng)用和開發(fā)的深入,Hadoop形成了自身的生態(tài)圈。在0.20及以前的版本中,Hadoop Common包含HDFS、Map/Reduce和其他項口公共內(nèi)容,從0.21開始HDFS和Map/Reduce成為獨立的子項口。Map/Reduce是分布式并行計算框架,是Hadoop的核心。HDFS所起的作用就是使得每個服務(wù)器必須具備對數(shù)據(jù)的訪問能力,而Pig編程語言則簡化了Hadoop常見的工作任務(wù),Pig可加載數(shù)據(jù)、表達轉(zhuǎn)換數(shù)據(jù)以及存儲最終結(jié)果。2006年,HBase ( BigTable)分布式列存儲數(shù)據(jù)庫成為Hadoop子項口,2010年5月升級為頂級Apache項口Hive (Facebook)數(shù)據(jù)倉庫工具,它架構(gòu)在HDFS之上,增加靜態(tài)數(shù)據(jù)結(jié)構(gòu),力一便進行數(shù)據(jù)分析查詢,2008年9月成為Hadoop子項口。Zoo-keeper (Facebook)則是分布式鎖設(shè)施,它提供類似Google Chubby的功能。Avro是一個新的數(shù)據(jù)序列化格式與傳輸工具,2010年5月成為頂級Apache項目。
Hadoop在數(shù)據(jù)管理中到底處于什么樣的地位?Hadoop實質(zhì)上是一個可以更容易開發(fā)和存儲大規(guī)模數(shù)據(jù)的軟件平臺,幫助用戶快速、低成本地實現(xiàn)大數(shù)據(jù)的存儲、管理及分析查詢。Hadoop由Map/Reduce和HDFS兩個關(guān)鍵部分構(gòu)成,Map/Reduce 可實現(xiàn)高性能分布式并行數(shù)據(jù)處理,HDFS提供可靠數(shù)據(jù)存儲服務(wù),低廉MPP高容錯、高通量、可伸縮,用戶可在不了解分布式底層細節(jié)的情況下開發(fā)分布式程序,允分利用MPP的能力。
隨著用戶對大數(shù)據(jù)存儲、管理和分析需求越來越迫切,傳統(tǒng)數(shù)據(jù)庫對非結(jié)構(gòu)化數(shù)據(jù)幾乎無能為力。利用傳統(tǒng)數(shù)據(jù)庫對大數(shù)據(jù)進行處理時,會面臨很多難以解決的問題。首先是軟、硬件平臺的要求高,成本壓力大,并且成本和收益很難匹配。而同時,用戶希望允分發(fā)掘和利用非結(jié)構(gòu)化數(shù)據(jù)背后的商業(yè)價值,能以更經(jīng)濟的力一式、更好的性能來處理數(shù)據(jù),從而推動業(yè)務(wù)創(chuàng)新。
Hadoop在類似搜索引擎的查詢并行化分析處理領(lǐng)域取得極大成功,其本質(zhì)是提供了一種針對大規(guī)模數(shù)據(jù)密集型應(yīng)用的編程范式(Programming Paradigm),使人們擺脫對于底層分布和并行的操作。它所基于的BigTable和HDFS是非常質(zhì)樸的數(shù)據(jù)模型和存儲系統(tǒng),適用領(lǐng)域有限。盡管它的成功為大數(shù)據(jù)研究打開了思路,但絕不代表大數(shù)據(jù)技術(shù)的全部(僅是一個case)。它促使人們回到文件系統(tǒng)這一數(shù)據(jù)庫的起點來重新審視數(shù)據(jù)管理之口的。盡管Hadoop在處理網(wǎng)頁數(shù)據(jù)等力一面取得了巨大成功,但它有自身的弱點,Hadoop是一個離線的、批量的數(shù)據(jù)處理系統(tǒng),而實時在線(嚴格事務(wù),高效分析)仍是數(shù)據(jù)庫的擅長。從數(shù)據(jù)存儲的角度來看,HDFS專門針對大文件的存儲,等待時間較長,無法做到很高速的隨即讀寫。人們也曾探索過將Hadoop和數(shù)據(jù)庫結(jié)合起來應(yīng)對大數(shù)據(jù)的挑戰(zhàn),但這還不是口前企業(yè)中現(xiàn)實、經(jīng)濟的解決方案。
4從數(shù)據(jù)庫角度看大數(shù)據(jù)研究進展與趨勢
4. 1數(shù)據(jù)庫發(fā)展回顧
大數(shù)據(jù)研究是數(shù)據(jù)庫回到文件系統(tǒng)這一原點后的重新出發(fā)。我們有必要站在更大尺度的時問軸上來重新審視數(shù)據(jù)庫的輝煌發(fā)展歷史。
(1)數(shù)據(jù)庫的發(fā)展歷史。
1965年,數(shù)據(jù)庫領(lǐng)域第一個獲得圖靈獎的計算機科學(xué)家Bachman C 發(fā)表了他的重要論文“Integrated Data Store",向世人介紹了世界上第一個數(shù)據(jù)庫系統(tǒng)IDS。這一事件標(biāo)志著數(shù)據(jù)庫的誕生。IBM公司1968年推出基于層次模型的數(shù)據(jù)庫系統(tǒng)IMS。那時,數(shù)據(jù)庫概念基本形成,緊隨其后,數(shù)據(jù)系統(tǒng)語言會議CODASYL(研究COBOI二擴展數(shù)據(jù)功能的會議)專門組織了一個數(shù)據(jù)庫工作組DBTU。在著名的DBTU報告中,定義了我們現(xiàn)在所熟悉的幾乎所有的數(shù)據(jù)庫相關(guān)概念。這個報告實際上是提出網(wǎng)狀數(shù)據(jù)模型,試圖克服IMS需要對數(shù)據(jù)存儲結(jié)構(gòu)底層細節(jié)了解才能進行數(shù)據(jù)訪問的缺點。雖然這個報告中的網(wǎng)狀模型沒有廣泛地在數(shù)據(jù)庫系統(tǒng)產(chǎn)品中得到實現(xiàn),但它對現(xiàn)代數(shù)據(jù)庫系統(tǒng)體系結(jié)構(gòu)和概念的形成有著不可磨滅的貢獻。 1970年6月,當(dāng)時在IBM工作的Codd E F在CACM發(fā)表了關(guān)于關(guān)系數(shù)據(jù)庫模型的第一篇論文,由此,數(shù)據(jù)庫技術(shù)的發(fā)展進入了一個嶄新的階段,數(shù)據(jù)庫系統(tǒng)的使用遍及信息化領(lǐng)域的
方方面面,并深刻地影響著人們的生活。
(2)數(shù)據(jù)庫的三大成就。
四十多年來,數(shù)據(jù)庫領(lǐng)域具有里程碑意義的三大事件分別是關(guān)系數(shù)據(jù)模型的提出、查詢處理和優(yōu)化技術(shù)的發(fā)展、事務(wù)管理技術(shù)的進步。關(guān)系數(shù)據(jù)庫因為其模型簡單、理論完備,使得數(shù)據(jù)庫家喻戶曉,形成了數(shù)百億美元的市場。查詢優(yōu)化也是伴隨著關(guān)系數(shù)據(jù)庫而產(chǎn)生的。在關(guān)系數(shù)據(jù)庫以前,數(shù)據(jù)訪問通過程序設(shè)計者在紛繁復(fù)雜的數(shù)據(jù)結(jié)構(gòu)中說明訪問路徑來完成,我們說這是用戶導(dǎo)航式的數(shù)據(jù)訪問。關(guān)系數(shù)據(jù)庫的優(yōu)點就在于用戶只需要說明“想要什么”而不需要說明“怎么做”,這里的“怎么做”就是數(shù)據(jù)結(jié)構(gòu)中的“導(dǎo)航”,用戶不管“導(dǎo)航”,系統(tǒng)就得負責(zé)。在IMS盛行的時代,最初實現(xiàn)的RDBMS效率很低,被譏笑為“Toy System"。這一局面得以改變,就是依靠查詢處理和優(yōu)化力一面的極大進展而實現(xiàn)的。具體而言,就是通過訪問路徑的優(yōu)化選擇保證CPU、存儲空問和其他成本的性能優(yōu)化。在這其中,索引技術(shù)也舉足輕重,技術(shù)得到全面突破。在事務(wù)管理力一面,事務(wù)管理模型和事管理關(guān)鍵技術(shù)的突破,使得支持大量用戶并發(fā)訪問成為現(xiàn)實,并有效地支持了數(shù)據(jù)庫恢復(fù)和保護機制的實現(xiàn),從而把數(shù)據(jù)庫系統(tǒng)打造成一種全面、實用的系統(tǒng)。
4. 2數(shù)據(jù)庫技術(shù)面臨的挑戰(zhàn)
傳統(tǒng)的數(shù)據(jù)庫技術(shù)在20世紀80年代己基本成熟,其標(biāo)志是產(chǎn)業(yè)的發(fā)展和壯大,特別是幾大數(shù)據(jù)庫廠商的出現(xiàn)。數(shù)據(jù)庫的概念深入人心,數(shù)據(jù)庫建設(shè)的重要性毋庸置疑。幾乎在同時,數(shù)據(jù)庫領(lǐng)域自身以及實際應(yīng)用領(lǐng)域的專業(yè)人士允分意識到傳統(tǒng)數(shù)據(jù)庫技術(shù)的局限性。在關(guān)系數(shù)據(jù)庫理論基本完善之后,人們很快就開始了對新型數(shù)據(jù)模型的探索,提出了二元數(shù)據(jù)模型、語義數(shù)據(jù)模型、圖數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、面向?qū)ο髷?shù)據(jù)模型等等。實際應(yīng)用中的“材料單BOM(Bill of Material)”問題、傳遞閉包問題也是經(jīng)典數(shù)據(jù)庫技術(shù)無法解決的。值得一提的是,演繹數(shù)據(jù)庫和面向?qū)ο髷?shù)據(jù)庫的研究定程度上增強了傳統(tǒng)數(shù)據(jù)庫的能力。
除數(shù)據(jù)模型和以上提到的具體應(yīng)用問題以外,數(shù)據(jù)庫面臨更多更大的挑戰(zhàn)。舉例來說,數(shù)據(jù)的OLAP要求能快速多粒度地從歷史和現(xiàn)實數(shù)據(jù)中分析出對決策有幫助的結(jié)果,這和數(shù)據(jù)庫系統(tǒng)所擅長支持的在線事務(wù)處理(OLTP)應(yīng)用差別很大。數(shù)據(jù)倉庫技術(shù)就是針對這類應(yīng)用提出來的,幾年來取得長足的進步。另一個例子是數(shù)據(jù)流應(yīng)用,現(xiàn)實中不是所有的數(shù)據(jù)都需要保存在數(shù)據(jù)庫系統(tǒng)中然后再進行處理的,譬如,檢測或監(jiān)控系統(tǒng)采集的數(shù)據(jù),很多是不需要或無法全部保存下來再進行分析處理,一是數(shù)量太大、保存意義不大,二是現(xiàn)實應(yīng)用
中需要及時反應(yīng)(報警或報告),不容先存入數(shù)據(jù)庫中然后再來分析。21世紀初開始興起的數(shù)據(jù)流技術(shù)就是用來解決這一類應(yīng)用問題的。數(shù)據(jù)流在其他領(lǐng)域也被稱為實時復(fù)雜事件處理技術(shù)CEP。再一個例子就更容易理解,廣泛而言,數(shù)據(jù)庫是來管理數(shù)據(jù)的,所有有數(shù)據(jù)的地力一就應(yīng)該有數(shù)據(jù)庫。Web是典型的有大量數(shù)據(jù)的地力一,科學(xué)實驗數(shù)據(jù)也一樣。數(shù)據(jù)庫如何來管理這些數(shù)據(jù)是一個挑戰(zhàn)。這些場合的數(shù)據(jù)具有如下特點:數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)來源多樣,還有就是這些數(shù)據(jù)的用戶群規(guī)模大、需求各異。針對這些應(yīng)用,人們深入研究了XML/RDF半結(jié)構(gòu)化數(shù)據(jù)管理技術(shù)、智能數(shù)據(jù)集成、按列存儲數(shù)據(jù)管理、分布式高可靠的存儲和并行計算技術(shù),提出了相應(yīng)的解決方案。
4. 3大數(shù)據(jù)研究的問題與難點
數(shù)據(jù)庫領(lǐng)域面臨的挑戰(zhàn)正是大數(shù)據(jù)研究的起點。從這個意義上來說,大數(shù)據(jù)是傳統(tǒng)數(shù)據(jù)在“V"維度上的擴展,大數(shù)據(jù)應(yīng)用是傳統(tǒng)數(shù)據(jù)庫應(yīng)用的自然延伸,大數(shù)據(jù)技術(shù)是傳統(tǒng)數(shù)據(jù)管理技術(shù)的自然發(fā)展。
從數(shù)據(jù)庫工作者的角度看大數(shù)據(jù)的研究,我們認為,大數(shù)據(jù)的基礎(chǔ)研究主要包括:(1)大數(shù)據(jù)分類學(xué);(2)大數(shù)據(jù)全生命周期管理;(3)大數(shù)據(jù)質(zhì)量管理。應(yīng)用是引發(fā)大數(shù)據(jù)概念的根源,大數(shù)據(jù)的基礎(chǔ)研究包括從數(shù)據(jù)本身、應(yīng)用需求和計算環(huán)境等多個維度研究大數(shù)據(jù)的分類、共性特點以及數(shù)據(jù)資源化管理的相關(guān)理論和力一法。研究思路和力一法可參考和借鑒圖書情報學(xué)科的興起和發(fā)展歷史。由于大數(shù)據(jù)是個覆蓋面很廣的概念,除了要研究大數(shù)據(jù)的共性特點外,還很有必要從數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)應(yīng)用等角度全面綜合分析,研究大數(shù)據(jù)的分類;大數(shù)據(jù)概念的一個很重要的內(nèi)涵就是數(shù)據(jù)的共享和使用,Data Curation(暫譯為:數(shù)據(jù)監(jiān)護)指的就是研究數(shù)據(jù)從產(chǎn)生、標(biāo)注、存儲、共享和使用等全生命周期的數(shù)據(jù)管理和維護,這類似于圖書館的作用;大數(shù)據(jù)因為共享和使用而引發(fā)數(shù)據(jù)的加工和衍生結(jié)果,數(shù)據(jù)溯源(Data Provenance)和數(shù)據(jù)世系(Data Lineage)研究旨在保證數(shù)據(jù)使用的質(zhì)量;由于大數(shù)據(jù)的共享應(yīng)用特點,訪問用戶的不確定性和服務(wù)提供者之問的數(shù)據(jù)共享,使得大數(shù)據(jù)的存儲和訪問不同于傳統(tǒng)的處于可信域的數(shù)據(jù)的存儲和訪問,特別是針對不同社交網(wǎng)絡(luò)中用戶身份標(biāo)識信息等敏感數(shù)據(jù)的安全訪問控制研究,是保證大數(shù)據(jù)安全應(yīng)用的前提條件之一。
大數(shù)據(jù)研究的主要技術(shù)難點包括:(1)大數(shù)據(jù)語義建模;(2)大數(shù)據(jù)分析功能/性能均衡;(3)支撐大數(shù)據(jù)處理的硬件/存儲體系結(jié)構(gòu)。大數(shù)據(jù)的基本特點是數(shù)量巨大、來源各異、結(jié)構(gòu)復(fù)雜,還有就是很多具體應(yīng)用要求響應(yīng)時問很短。針對數(shù)據(jù)來源多樣以及數(shù)據(jù)結(jié)構(gòu)復(fù)雜的特點,數(shù)據(jù)建模不僅要考慮單一來源、單一類型數(shù)據(jù)的語義抽象,而且還要考慮不同類型、不同來源數(shù)據(jù)問的聯(lián)系。傳統(tǒng)的語義數(shù)據(jù)模型的己有成果存在許多值得借鑒的地力一,但時下所面臨的數(shù)據(jù)建模的復(fù)雜程度是前所未有的,必須深入分析具體應(yīng)用需求、做精致的剪裁,才有可能提出有效的在限定應(yīng)用范圍內(nèi)適用的數(shù)據(jù)模型。對大數(shù)據(jù)進行分析處理,發(fā)現(xiàn)其中蘊含的知識,從而理解和使用數(shù)據(jù)、支持以數(shù)據(jù)為核心的應(yīng)用,是大數(shù)據(jù)研究的重要任務(wù),隨著大數(shù)據(jù)的興起,云計算也正在進入以“分析即服務(wù)AaaS(Analysis as a Service)”為主要口標(biāo)的Cloud 2. 0時代。云計算和NoSQI二技術(shù)與平臺,為數(shù)據(jù)分析任務(wù)提供了數(shù)據(jù)訪問的基礎(chǔ),并且可有效克服由于數(shù)據(jù)規(guī)模和異構(gòu)性而引起的訪問瓶頸。針對數(shù)據(jù)量大和響應(yīng)時問短的特點,首要的問題是在數(shù)據(jù)管理和分析的功能和性能上進行仔細的權(quán)衡,擯棄傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)圍繞記賬(Billing)和訂票(Booking)需求實現(xiàn)的額外開銷巨大的OLTP功能,有選擇地高效實現(xiàn)那些與業(yè)務(wù)密切相關(guān)的關(guān)鍵的數(shù)據(jù)分析功能,在性能上比現(xiàn)有的數(shù)據(jù)倉庫或OLAP系統(tǒng)有極大的提升,以解決類似實時商務(wù)智能的需求。另一方面,如何利用計算機系統(tǒng)硬件和系統(tǒng)技術(shù)的發(fā)展,特別是存儲系統(tǒng)以及計算機系統(tǒng)體系結(jié)構(gòu)的發(fā)展來支持新的應(yīng)用形勢下大數(shù)據(jù)的管理和分析,是一個具有挑戰(zhàn)性的、很有前景的研究課題。" Hadoop、HDFS、 Map/Reduce”模式在Google和Yahoo。的Web應(yīng)用中有成功的實現(xiàn),但這種探索還很初步,能支持的功能也很有限。“內(nèi)存計算+列存儲”模式在商務(wù)智能應(yīng)用的探索正在興起,面臨的問題還包括功能完善和性能改善,內(nèi)存計算系統(tǒng)的可靠性保障以及輔助決策支持所需要的基本數(shù)據(jù)分析功能的基準測試是一些需要深入研究的課題,還包括為支持實現(xiàn)這類應(yīng)用專門設(shè)計的高可靠、具有新穎存儲結(jié)構(gòu)的MPP集群計算機系統(tǒng)。針對科學(xué)實驗和科學(xué)觀測中的大數(shù)據(jù)管理問題,數(shù)據(jù)建模和數(shù)據(jù)使用是與應(yīng)用領(lǐng)域密切相關(guān)的,己有的關(guān)于科學(xué)和統(tǒng)計數(shù)據(jù)庫的研究成果是一筆寶貴的財富,新的應(yīng)用需求和計算平臺也為這力一面的研究提供了嶄新的研究視角。
4. 4大數(shù)據(jù)示范應(yīng)用
當(dāng)前大數(shù)據(jù)的示范應(yīng)用主要包括:(1)社交媒體數(shù)據(jù)分析;(2)互聯(lián)網(wǎng)廣告;(3)基于位置的服務(wù);(4)實時商務(wù)智能。大數(shù)據(jù)概念的產(chǎn)生以及大數(shù)據(jù)研究的興起是典型的應(yīng)用驅(qū)動的。大數(shù)據(jù)分析是大數(shù)據(jù)研究的重要任務(wù),其應(yīng)用可以分為面向消費者和面向企業(yè)兩大類。與Web相關(guān)的應(yīng)用主要是面向消費者的,商務(wù)智能應(yīng)用是面向企業(yè)的。指導(dǎo)這兩類技術(shù)研發(fā)的基本思想是有所差別的。面向消費者的數(shù)據(jù)分析必須依托于新型的信息服務(wù),這些服務(wù)吸引消費者,產(chǎn)生互聯(lián)網(wǎng)流量,數(shù)據(jù)分析的主要口的是將這些流量變成信息服務(wù)提供者的商業(yè)利潤,前三類應(yīng)用屬于這一性質(zhì)。其基本思路是:信息服務(wù)系統(tǒng)為在線用戶提供個性化的產(chǎn)品推薦或廣告,從而實現(xiàn)第三方付費的商業(yè)模式。這一類數(shù)據(jù)分析涉及用戶信息(包括動態(tài)的用戶行為和協(xié)同行為等)、媒體頁面信息、產(chǎn)品信息等,數(shù)據(jù)和計算量都很大,要求的響應(yīng)時問通常在微秒級。伴隨著當(dāng)前風(fēng)起云涌的各類新型Web應(yīng)用,這力一面的數(shù)據(jù)分析應(yīng)用有很大的發(fā)展空問和很多的發(fā)展機遇。面向企業(yè)或機構(gòu)的數(shù)據(jù)分析應(yīng)用,所涉及的應(yīng)用主體與傳統(tǒng)數(shù)據(jù)庫系統(tǒng)的客戶類似,主要是大型企事業(yè)單位,他們對系統(tǒng)的可靠性以及數(shù)據(jù)分析系統(tǒng)的平臺獨立性有較高的要求。以往的輔助決策商務(wù)智能系統(tǒng)要么架構(gòu)在運營數(shù)據(jù)庫之上,性能受到影響,要么自成體系,軟硬件捆綁,難以自主完成硬件升級和功能定制,數(shù)據(jù)分析系統(tǒng)的封閉性長期以來己成為很多企事業(yè)單位信息系統(tǒng)成本上的一個負擔(dān)和單位業(yè)務(wù)發(fā)展上的一個制約瓶頸。當(dāng)前是這力一面系統(tǒng)研發(fā)和推廣應(yīng)用的一個很好時機。
5結(jié)束語
大數(shù)據(jù)是一個籠統(tǒng)的概念,與應(yīng)用密切相關(guān),離開應(yīng)用談大數(shù)據(jù)研究現(xiàn)在還為時過早,應(yīng)該分類研究Web數(shù)據(jù)/決策數(shù)據(jù)/科學(xué)數(shù)據(jù)。要想抽象出大數(shù)據(jù)研究的共性科學(xué)問題,應(yīng)該首先限定應(yīng)用領(lǐng)域,只有對具體的應(yīng)用有全面深入的理解才有可能在更高層面抽象出共性的科學(xué)和技術(shù)問題,也才有可能發(fā)展出具有特色的大數(shù)據(jù)技術(shù)和系統(tǒng),進而推動大數(shù)據(jù)管理理論的發(fā)展。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫在研究理念和力一法學(xué)上是一脈相承的,從特定應(yīng)用到技術(shù)力一案,到理論和模型,再到系統(tǒng)和產(chǎn)品,這也是數(shù)據(jù)庫發(fā)展歷史及輝煌成就給予我們對大數(shù)據(jù)研究的啟示。但是,僅僅使用數(shù)據(jù)庫技術(shù)研究大數(shù)據(jù)是不夠的,大數(shù)據(jù)的研究需要多學(xué)科的交叉,需要計算機科學(xué)、機器學(xué)習(xí)、計算數(shù)學(xué)、統(tǒng)計學(xué)、管理科學(xué)等多學(xué)科的合作。聚焦應(yīng)用場景和研究內(nèi)容,具體化技術(shù)路線,明確研究口標(biāo),從而切實抓住大數(shù)據(jù)時代給我們從事相關(guān)研究和開發(fā)的技術(shù)人員帶來的難得機遇。我們現(xiàn)在正處在這個機遇的時
問窗口,但時問窗口不會永遠敞開。
核心關(guān)注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請注明出處:拓步ERP資訊網(wǎng)http://m.nttd-wave.com.cn/
本文標(biāo)題:從數(shù)據(jù)庫視角解讀大數(shù)據(jù)的研究進展與趨勢
本文網(wǎng)址:http://m.nttd-wave.com.cn/html/consultation/10825915933.html