大數據一詞在近年來討論度居高不下,成為各領域積極導入的新興技術。做為資工從業人員,若能搭上大數據的發展浪潮,將能成為未來10年的搶手人才。接下來將帶你認識大數據的基本概念與3大應用面向,介紹相關領域的工作職位,幫助你更深入掌握大數據的奧秘。
大數據分析是指處理100TB以上的巨量資料,從中判讀資料,模擬、預測各種可能變化性。在2001年由Gartner公司定義大數據具有3V元素,分別是Variety(多樣性)、Velocity(即時性),以及Volume(大量),屬於狹義的大數據範疇,但隨著網路環境發展,亦有相關領域研究者提出新的V要素,以下為你一一介紹。
在數據分析時代,人們在網路上的一舉一動都可以轉化成數據資料,大數據是透過各管道收集而來,生成累積高達TB、PB、甚至是EB量級的巨量資訊。
代表可解析多種資料形式,包含結構式、半結構式、與非結構式資訊,尤其全球超過80%的資訊都為非結構性資訊,透過大數據運算系統,解析數字、報表、影像、音訊與文字等內容。
高速指涉資料傳輸速度,可以快速處理巨量資料,即時更新每個來源管道搜集而來的數據,提供運算系統分析。 如Google每分鐘處理200萬以上的關鍵字搜尋請求,即是展現高速的大數據特性。
隨著每日的網路數據資料大量生成,其中充斥著真真假假的資訊,針對檢驗資訊的問題,後人提出第4個V-Veracity(真實性),即排除過濾造假資訊,審核資料正確性,才能確保分析結果符合現實情況。
網路科技已經普及在社會各個角落,從行動裝置、電腦以及各式智慧型電器,都提供各類資訊給大數據資料庫,同時也能加入不同的解析視角,為分析師帶來更多元觀點。
大數據已應用在各領域中,深入你我的生活,為人們帶來更多便利,目前主要分為3大面向:
運用Python工具從網路中獲取巨量資料,建構Mongo DB資料庫,再使用如Hadoop、Spark的演算系統建立數據模型,模擬現有數據提供的各種可能變化,推算未來發展。這項應用可以用於各個領域,包含城市規劃、交通規劃、商業經營、金融趨勢、環境監控等面向。
隨著光學辨識系統與人工智慧發展,針對圖像這類非結構式資料的搜集與分析技術也漸趨成熟,解析各式管道獲取的影像,將資訊納入資料庫,進行前述的分析模擬。圖像辨認已經普遍應用在生活之中,如安防監控、車牌辨識技術等都屬於這類應用。
結合人工智慧技術,將大數據搜集而來的資料進行自然語言處理,透過認知、理解資訊,再生成分析後的解讀報告,提供給分析師或決策者。
隨著近年全球各大企業掀起數位轉型浪潮,未來人才需具備數位分析與智慧應用能力,才能透過大數據的資料庫技術、資料處理與整合、系統部署等能力,幫助企業推動數位化進程。工研院產業學院為鼓勵現有資工人才,積極充實大數據相關技能,由頂尖專家沿著系統性學習地圖,規劃大數據工程師課程,帶領你走進資料科學的世界,成為未來10年最火紅的大數據工程師。