大數(shù)據(jù)的處理過程可以分為大數(shù)據(jù)采集、存儲、結(jié)構(gòu)化處理、隱私保護、挖掘、結(jié)果展示(發(fā)布)等,各種領(lǐng)域的大數(shù)據(jù)應(yīng)用一般都會涉及到這些基本過程,但不同應(yīng)用可能會有所側(cè)重。對于互聯(lián)網(wǎng)大數(shù)據(jù)而言,由于其具有獨特完整的大數(shù)據(jù)特點,除了共性技術(shù)外,采集技術(shù)、結(jié)構(gòu)化處理技術(shù)、隱私保護也非常突出。
大數(shù)據(jù)
有很多算法和模型可以解決這些處理過程中的技術(shù)問題,并且為了最終用戶的使用方便,它們大都被進一步的封裝,形成了比較簡單易用的操作平臺。目前大數(shù)據(jù)技術(shù)平臺有很多,歸納起來可以按照以下方式進行分類:
(1)從大數(shù)據(jù)處理的過程來分:包括數(shù)據(jù)存儲、數(shù)據(jù)挖掘分析、以及為完成高效分析挖掘而設(shè)計的計算平臺,它們完成數(shù)據(jù)采集、ETL、存儲、結(jié)構(gòu)化處理、挖掘、 分析、預(yù)測、應(yīng)用等功能。
(2)從大數(shù)據(jù)處理的數(shù)據(jù)類型來劃分:可以分為針對關(guān)系型數(shù)據(jù)、非關(guān)系型數(shù)據(jù)(圖數(shù)據(jù)、文本數(shù)據(jù)、網(wǎng)絡(luò)型數(shù)據(jù)等)、半結(jié)構(gòu)化數(shù)據(jù)、混合類型數(shù)據(jù)處理的技術(shù)平臺。
(3)從大數(shù)據(jù)處理的方式來劃分:可以分為批量處理、實時處理、綜合處理。其中批量數(shù)據(jù)是對成批數(shù)據(jù)進行一次性處理,而實時處理(流處理)對處理的延時有嚴格的要求,綜合處理是指同時具備批量處理和實時處理兩種方式。
(4)從平臺對數(shù)據(jù)的部署方式看:可以分為基于內(nèi)存的、基于磁盤的。前者在分布式系統(tǒng)內(nèi)部的數(shù)據(jù)交換是在內(nèi)存中進行,后者則是通過磁盤文件的方式。
此外,技術(shù)平臺還有分布式、集中式之分,云環(huán)境和非云環(huán)境之分等。阿里云大數(shù)據(jù)平臺構(gòu)建在阿里云云計算基礎(chǔ)設(shè)施之上,為用戶提供了大數(shù)據(jù)存儲、計算能力、大數(shù)據(jù)分析挖掘、以及輸出展示等服務(wù),用戶可以容易地實現(xiàn)BI商業(yè)智能、人工智能服務(wù),具備一站式數(shù)據(jù)應(yīng)用能力。
不同的大數(shù)據(jù)技術(shù)平臺提供了對這些處理過程的支持,有的平臺可能會支持多個過程,但是側(cè)重點也不同,支持的深度也有所不同,因此有必要熟悉各種平臺的功能,并做出比較分析,以便在實際應(yīng)用中選擇適合于自己需求的技術(shù)平臺。
選擇一個合適的大數(shù)據(jù)技術(shù)平臺是非常重要的,它能夠使得大數(shù)據(jù)應(yīng)用開發(fā)更加容易、讓開發(fā)人員更集中精力在業(yè)務(wù)層面的數(shù)據(jù)分析與處理上。一些共性的基礎(chǔ)問題,例如數(shù)據(jù)如何存儲、如何檢索、數(shù)據(jù)統(tǒng)計等,就可以由平臺來完成。選擇合適的大數(shù)據(jù)技術(shù)平臺應(yīng)當(dāng)考慮以下因素:
(1)平臺的功能與性能:由于不同平臺側(cè)重的功能不同,平臺的性能也就有很多需要考察的方面。比如對于存儲平臺來說,數(shù)據(jù)的存儲效率、讀寫效率、并發(fā)訪問能力、對結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存儲的支持,所提供的數(shù)據(jù)訪問接口等方面就是比較重要的。對于大數(shù)據(jù)挖掘平臺來說,所支持的挖掘算法、算法的封裝程度、數(shù)據(jù)挖掘結(jié)果的展示能力、挖掘算法的時間和空間復(fù)雜度等,是比較重要的指標。
(2)平臺的集成度:好的平臺應(yīng)該具有較高的集成度,為用戶提供良好的操作界面,具有完善的幫助和使用手冊、系統(tǒng)易于配置、移植性好。同時隨著目前軟件開源的趨勢,開源平臺有助于其版本的快速升級,盡快發(fā)現(xiàn)其中的bug,此外,開源的架構(gòu)也比較容易進行擴展,植入更多的新算法,這對于最終用戶而言也是比較重要的。
(3)是否符合技術(shù)發(fā)展趨勢:大數(shù)據(jù)技術(shù)是當(dāng)前發(fā)展和研究的熱點,其最終將走向逐步成熟,可以預(yù)見在這個過程中,并非所有的技術(shù)平臺都能生存下來。只有符合技術(shù)發(fā)展趨勢的技術(shù)平臺才會被用戶、被技術(shù)開發(fā)人員所接受。因此,一些不支持分布式、集群計算的平臺大概只能針對較小的數(shù)據(jù)量,側(cè)重于對挖掘算法的驗證。而與云計算、物聯(lián)網(wǎng)、人工智能聯(lián)系密切的技術(shù)平臺將成為主流,是技術(shù)發(fā)展趨勢。
當(dāng)我們花很多時間去掌握熟悉某種技術(shù)平臺后,可能新的更好的技術(shù)平臺出現(xiàn)了,導(dǎo)致我們受累奔波于各種技術(shù)平臺,因此,最好的策略就是全面系統(tǒng)地掌握大數(shù)據(jù)技術(shù)的原理和實現(xiàn)方案,這樣學(xué)習(xí)新的技術(shù)平臺就很容易上手。

創(chuàng)新互聯(lián)面向全國提供域名注冊、虛擬主機、云服務(wù)器、服務(wù)器托管與租用,如需了解,請聯(lián)系QQ:171356849微信:zh18159893430 咨詢,謝謝!
當(dāng)前文章:目前大數(shù)據(jù)技術(shù)平臺主要分為哪幾類
本文網(wǎng)址:http://www.jbt999.com/article36/dhjsg.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供企業(yè)建站、ChatGPT、企業(yè)網(wǎng)站制作、面包屑導(dǎo)航、App開發(fā)、用戶體驗
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:[email protected]。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)