大數據的前世今生——大數據特徵與發展歷程

雷鋒網 於 09/10/2014 發表 收藏文章
大數據的定義與特徵

大數據(big data)是這樣的數據集合:數據量增長速度極快,用常規的數據工具無法在一定的時間內進行採集、處理、存儲和計算的數據集合。

作者認為具有以下五大特徵(4V+1O)的數據才稱之為大數據,即:

數據量大(Volume)。 第一個特徵是數據量大,包括採集、存儲和計算的量都非常大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。

類型繁多(Variety)。 第二個特徵是種類和來源多樣化。包括結構化、半結構化和非結構化數據,具體表現為網絡日誌、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。

價值密度低(Value)。 第三個特徵是數據價值密度相對較低,或者說是浪里淘沙卻又彌足珍貴。隨著互聯網以及物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何結合業務邏輯並通過強大的機器算法來挖掘數據價值,是大數據時代最需要解決的問題。

速度快時效高(Velocity)。 第四個特徵數據增長速度快,處理速度也快,時效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法盡可能要求實時完成推薦。這是大數據區別於傳統數據挖掘的顯著特徵。

數據是在線的(Online)。 數據是永遠在線的,是隨時能調用和計算的,這是大數據區別於傳統數據最大的特徵。現在我們所談到的大數據不僅僅是大,更重要的是數據變的在線了,這是互聯網高速發展背景下的特點。比如,對於打車工具,客戶的數據和出租司機數據都是實時在線的,這樣的數據才有意義。如果是放在磁盤中而且是離線的,這些數據遠遠不如在線的商業價值大。

關於大數據特徵方面,特別要強調的一點是數據是在線的,因為很多人認為數據量大就是大數據,往往忽略了大數據的在線特性。數據只有在線,即數據在與產品用戶或者客戶產生連接的時候才有意義。如某用戶在使用某互聯網應用時,其行為及時的傳給數據使用方,數據使用方通過某種有效加工後(通過數據分析或者數據挖掘進行加工),進行該應用的推送內容的優化,把用戶最想看到的內容推送給用戶,也提升了用戶的使用體驗。

大數據發展過程的重大事件

  • 2005年Hadoop項目誕生。 Hadoop其最初只是雅虎公司用來解決網頁搜索問題的一個項目,後來因其技術的高效性,被Apache Software Foundation公司引入並成為開源應用。 Hadoop本身不是一個產品,而是由多個軟件產品組成的一個生態系統,這些軟件產品共同實現全面功能和靈活的大數據分析。從技術上看,Hadoop由兩項關鍵服務構成:採用Hadoop分佈式文件系統(HDFS)的可靠數據存儲服務,以及利用一種叫做MapReduce技術的高性能並行數據處理服務。這兩項服務的共同目標是,提供一個使對結構化和復雜數據的快速、可靠分析變為現實的基礎。
2008年末,“大數據”得到部分美國知名計算機科學研究人員的認可,業界組織計算社區聯盟(Computing Community Consortium),發表了一份有影響力的白皮書《大數據計算:在商務、科學和社會領域創建革命性突破》。它使人們的思維不僅局限於數據處理的機器,並提出:大數據真正重要的是新用途和新見解,而非數據本身。此組織可以說是最早提出大數據概念的機構。

2009年印度政府建立了用於身份識別管理的生物識別數據庫,聯合國全球脈衝項目已研究了對如何利用手機和社交網站的數據源來分析預測從螺旋價格到疾病爆發之類的問題。

2009年中,美國政府通過啟動Data.gov網站的方式進一步開放了數據的大門,這個網站向公眾提供各種各樣的政府數據。該網站的超過4.45萬量數據集被用於保證一些網站和智能手機應用程序來跟踪從航班到產品召回再到特定區域內失業率的信息,這一行動激發了從肯尼亞到英國范圍內的政府們相繼推出類似舉措。

2009年,歐洲一些領先的研究型圖書館和科技信息研究機構建立了夥伴關係致力於改善在互聯網上獲取科學數據的簡易性。

2010年2月,肯尼斯??庫克爾在《經濟學人》上發表了長達14頁的大數據專題報告《數據,無所不在的數據》。庫克爾在報告中提到:“世界上有著無法想像的巨量數字信息,並以極快的速度增長。從經濟界到科學界,從政府部門到藝術領域,很多方面都已經感受到了這種巨量信息的影響。科學家和計算機工程師已經為這個現象創造了一個新詞彙:“大數據”。庫克爾也因此成為最早洞見大數據時代趨勢的數據科學家之一。

2011年2月,IBM的沃森超級計算機每秒可掃描並分析4TB(約2億頁文字量)的數據量,並在美國著名智力競賽電視節目《危險邊緣》“Jeopardy”上擊敗兩名人類選手而奪冠。後來紐約時報認為這一刻為一個“大數據計算的勝利。”

2011年5月,全球知名諮詢公司麥肯錫(McKinsey&Company)肯錫全球研究院(MGI)發布了一份報告——《大數據:創新、競爭和生產力的下一個新領域》,大數據開始備受關注,這也是專業機構第一次全方面的介紹和展望大數據。報告指出,大數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。報告還提到,“大數據”源於數據生產和收集的能力和速度的大幅提升——由於越來越多的人、設備和傳感器通過數字網絡連接起來,產生、傳送、分享和訪問數據的能力也得到徹底變革。

2011年12 月,工信部發布的物聯網十二五規劃上,把信息處理技術作為4 項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。

2012年1月份,瑞士達沃斯召開的世界經濟論壇上,大數據是主題之一,會上發布的報告《大數據,大影響》(Big Data, Big Impact) 宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。

2012年3月,美國奧巴馬政府在白宮網站發布了《大數據研究和發展倡議》,這一倡議標誌著大數據已經成為重要的時代特徵。 2012年3月22日,奧巴馬政府宣布2億美元投資大數據領域,是大數據技術從商業行為上升到國家科技戰略的分水嶺,在次日的電話會議中,政府對數據的定義“未來的新石油”,大數據技術領域的競爭,事關國家安全和未來。並表示,國家層面的競爭力將部分體現為一國擁有數據的規模、活性以及解釋、運用的能力;國家數字主權體現對數據的佔有和控制。數字主權將是繼邊防、海防、空防之後,另一個大國博弈的空間。

2012年4月,美國軟件公司Splunk於19日在納斯達克成功上市,成為第一家上市的大數據處理公司。鑑於美國經濟持續低靡、股市持續震蕩的大背景,Splunk首日的突出交易表現尤其令人們印象深刻,首日即暴漲了一倍多。 Splunk是一家領先的提供大數據監測和分析服務的軟件提供商,成立於2003年。 Splunk成功上市促進了資本市場對大數據的關注,同時也促使IT廠商加快大數據佈局。

2012年7月,聯合國在紐約發布了一份關於大數據政務的白皮書,總結了各國政府如何利用大數據更好地服務和保護人民。這份白皮書舉例說明在一個數據生態系統中,個人、公共部門和私人部門各自的角色、動機和需求:例如通過對價格關注和更好服務的渴望,個人提供數據和眾包信息,並對隱私和退出權力提出需求;公共部門出於改善服務,提升效益的目的,提供了諸如統計數據、設備信息,健康指標,及稅務和消費信息等,並對隱私和退出權力提出需求;私人部門出於提升客戶認知和預測趨勢目的,提供匯總數據、消費和使用信息,並對敏感數據所有權和商業模式更加關注。白皮書還指出,人們如今可以使用的極大豐富的數據資源,包括舊數據和新數據,來對社會人口進行前所未有的實時分析。聯合國還以愛爾蘭和美國的社交網絡活躍度增長可以作為失業率上升的早期徵兆為例,表明政府如果能合理分析所掌握的數據資源,將能“與數俱進”,快速應變。

2012年7月,為挖掘大數據的價值,阿里巴巴集團在管理層設立“首席數據官”一職,負責全面推進“數據分享平台”戰略,並推出大型的數據分享平台——“聚石塔”,為天貓、淘寶平台上的電商及電商服務商等提供數據云服務。隨後,阿里巴巴董事局主席馬雲在2012年網商大會上發表演講,稱從2013年1月1日起將轉型重塑平台、金融和數據三大業務。馬雲強調:“假如我們有一個數據預報台,就像為企業裝上了一個GPS和雷達,你們出海將會更有把握。”因此,阿里巴巴集團希望通過分享和挖掘海量數據,為國家和中小企業提供價值。此舉是國內企業最早把大數據提升到企業管理層高度的一次重大里程碑。阿里巴巴也是最早提出通過數據進行企業數據化運營的企業。

2014年4月,世界經濟論壇以“大數據的回報與風險”主題發布了《全球信息技術報告(第13版)》。報告認為,在未來幾年中針對各種信息通信技術的政策甚至會顯得更加重要。在接下來將對數據保密和網絡管制等議題展開積極討論。全球大數據產業的日趨活躍,技術演進和應用創新的加速發展,使各國政府逐漸認識到大數據在推動經濟發展​​、改善公共服務,增進人民福祉,乃至保障國家安全方面的重大意義。

2014年5月,美國白宮發布了2014年全球“大數據”白皮書的研究報告《大數據:抓住機遇、守護價值》。報告鼓勵使用數據以推動社會進步,特別是在市場與現有的機構並未以其他方式來支持這種進步的領域;同時,也需要相應的框架、結構與研究,來幫助保護美國人對於保護個人隱私、確保公平或是防止歧視的堅定信仰。

大數據相關技術的發展

大數據技術是一種新一代技術和構架,它以成本較低、以快速的採集、處理和分析技術,從各種超大規模的數據中提取價值。大數據技術不斷湧現和發展,讓我們處理海量數據更加容易、更加便宜和迅速,成為利用數據的好助手,甚至可以改變​​許多行業的商業模式,大數據技術的發展可以分為六大方向:
(1)在大數據採集與預處理方向。這方向最常見的問題是數據的多源和多樣性,導致數據的質量存在差異,嚴重影響到數據的可用性。針對這些問題,目前很多公司已經推出了多種數據清洗和質量控制工具(如IBM的Data Stage)。

(2)在大數據存儲與管理方向。這方向最常見的挑戰是存儲規模大,存儲管理複雜,需要兼顧結構化、非結構化和半結構化的數據。分佈式文件系統和分佈式數據庫相關技術的發展正在有效的解決這些方面的問題。在大數據存儲和管理方向,尤其值得我們關注的是大數據索引和查詢技術、實時及流式大數據存儲與處理的發展。

(3)大數據計算模式方向。由於大數據處理多樣性的需求,目前出現了多種典型的計算模式,包括大數據查詢分析計算(如Hive)、批處理計算(如Hadoop MapReduce)、流式計算(如Storm)、迭代計算(如HaLoop)、圖計算(如Pregel)和內存計算(如Hana),而這些計算模式的混合計算模式將成為滿足多樣性大數據處理和應用需求的有效手段。

(4)大數據分析與挖掘方向。在數據量迅速膨脹的同時,還要進行深度的數據深度分析和挖掘,並且對自動化分析要求越來越高,越來越多的大數據數據分析工具和產品應運而生,如用於大數據挖掘的R Hadoop版、基於MapReduce開發的數據挖掘算法等等。

(5)大數據可視化分析方向。通過可視化方式來幫助人們探索和解釋複雜的數據,有利於決策者挖掘數據的商業價值,進而有助於大數據的發展。很多公司也在開展相應的研究,試圖把可視化引入其不同的數據分析和展示的產品中,各種可能相關的商品也將會不斷出現。可視化工具Tabealu 的成功上市反映了大數據可視化的需求。

(6)大數據安全方向。當我們在用大數據分析和數據挖掘獲取商業價值的時候,黑客很可能在向我們攻擊,收集有用的信息。因此,大數據的安全一直是企業和學術界非常關注的研究方向。通過文件訪問控制來限制呈現對數據的操作、基礎設備加密、匿名化保護技術和加密保護等技術正在最大程度的保護數據安全。

互聯網的發展是大數據發展的最大驅動力

截至2014 年6月,我國網民規模達6.32億,較2013年底增加1442 萬人,互聯網普及46.9%,即接近一半的中國人在使用互聯網。互聯網的增長速度超越了很多人的預期:4年前即2010年6月,互聯網普及率為31.8%,而僅經歷了四年,互聯網的普及率增加了超過15%。

更為重要的是,CNNIC的數據還顯示,截至2014年6月,我國網民上網設備中,手機使用率達83.4%,首次超越傳統PC整體使用率(80.9%),手機作為第一大上網終端設備的地位更加鞏固,手機使得上網變得更加隨時隨地,手機上網更加滲透到人們的日常工作​​和生活中。

因此,互聯網普及使得網民的行為更加多元化,通過互聯網產生的數據發展更加迅猛,更具代表性。互聯網世界中的商品信息、社交媒體中的圖片、文本信息以及視頻網站的視頻信息,互聯網世界中的人與人交互信息、位置信息等,都已經成為大數據的最重要也是增長最快的來源。


文章來源微信公眾號:傅志華。作者:傅志華曾為騰訊社交網絡事業群數據中心總監以及騰訊公司數據協會會長。曾就職於艾瑞市場諮詢、易觀國際、中國互聯網協會,並任DCCI互聯網數據中心副總裁。


資料來源:雷鋒網
標籤: 大數據  

留言


請按此登錄後留言。未成為會員? 立即註冊
    快捷鍵:←
    快捷鍵:→