檔案大數據概念與涵義

發布時間:2020-01-16 09:27:15

導語:物聯網、云計算、移動互聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,成為巨大的數據來源。

第一部分:檔案大數據概念與涵義

當今世界快速發展將我們帶入了一個全新的時代。物聯網、云計算、移動互聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,成為巨大的數據來源。伴隨信息處理的快速提升,人類社會的“大數據”時代正撲面而來,大數據已經成為當前學術界和產業界的研究熱點,正影響著人們日常生活方式、工作習慣及思考模式。

縱觀檔案界,智慧檔案這一理念的提出得益于大數據技術的迅猛發展,檔案數據倉庫在大數據風暴中的作用日益凸顯,縱觀全國,各級檔案部門在數字檔案館和檔案數字化建設中不斷取得成果,其發展方向已經自覺或不自覺地朝著大數據邁近。“檔案大數據”這一概念隨著智慧檔案的提出應運而生,它與未來檔案現代化建設是相輔相成、相互促進的。數字檔案館和檔案數字化的建設將為檔案大數據提供數據基礎和實踐經驗,反過來,檔案大數據的思路也將指引著檔案工作的繁榮和發展,使檔案工作更趨科學合理,更具預見性和可持續性。

二、檔案大數據

檔案大數據是在大數據背景下衍生出的一個概念,一般可以理解為數據符合檔案特別是電子檔案的特點,如信息的非人工識讀性、信息存儲的高密度性信息與載體之間的可分離性、多種信息媒體的繼承性,同時又具備大數據具有的海量、多樣、高速、價值的4個特點,符合這些特征的檔案數據既可以理解為檔案大數據。檔案大數據存在的意義也同時符合檔案利用體系、資源體系、安全體系建設的要求,是檔案行業發展到一定程度,特別是在大數據技術日益成熟的當下發展產生的。

三、大數據時代

此概念最早由全球知名咨詢公司麥肯錫提及,它指出“數據已經滲透到當今每一個行業和業務領域,是必備的生產要素之一,人們對于海量數據的挖掘和運用預示著新一波生產率增長和消費者盈余浪潮的到來”。普遍的理解為大數據理念及技術在各行各業得到了普遍的應用,并且成為生產要素的主要構成部分,數據管理及應用具備這樣特征的時期可以稱作大數據時代。

四、 Hadoop框架

Hadoop是大數據開發的基礎框架,能夠滿足大數據管理特別是檔案大數據管理的需要。Hadoop是由 Apache基金會開發的分布式系統基礎架構及分布式計算平臺??梢宰層脩粼诓涣私夥植际降讓蛹夹g細節的情況下,開發分布式程序,充分發揮空閑主機進行及存儲對大數據進行管理與運算。普通用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序, Hadoop在大數據接收、存儲加載、計算方面具有突出的優勢。Hadoop框架的核心是HDFS和 Map Reduce。

IDFS為海量數據提供了存儲, Map Reduce為海量數據提供了計算。

1、 HDFS

HDFS具備高度容錯性,適合部署在廉價的設備上。HDFS具有很高的數據訪問吞吐量,可以實現流式讀取文件,非常適合在大規模數據集上應用,完全適合超大數據集的應用程序。

2、Mapreduce

Mapreduce是一種編程模型,用于大規模數據集的并行運算,要求數量級達到11B以上。它借鑒了函數式編程語言和矢量編程語言的特性,可以讓實現分布式并行計算的主體不用關心它的實現細節。

Map Reduce技術實現了把單個任務細化,并將細化的任務映射(Map)到多個節點上,之后再以單個數據集的形式規約( Reduce)到備HDFS特征的數據倉庫里。

五、數據倉庫

數據倉庫是為企業所有級別的決策制定過程提供支持的所有類型數據的戰略集合。數據倉庫是在數據庫已經大量存在的情況下,為了進一步挖掘數據資源及決策需要而產生。因此它具有以下特點:

1、面向主題

操作型數據庫的數據組織面向事務處理任務,各個業務系統獨自分離,但數據倉庫中的數據可以實現按照一定主題區域進行有效組織。

2、效率高容量大

可以實現自定義的數據分析周期,因此具有效率高的特點,并且可以支持海量數據的管理與應用。

3、集成性強

數據倉庫具有集成性強的特點,其數據來自分散的數據庫,它可以將分散的無關聯的大量數據庫進行高度集成。

4、擴展性好

數據倉庫的設計可以考慮到未來的一段時期,因為它具有很好的可擴展性,能夠節省一次性投入的成本,并且保證擴展后的系統具有很好的穩定性。

 

來源:蘭臺之家、國家檔案局官網


« 返回新聞列表
黄?色?成?人影院