大資料
外觀
|
規範覆蓋範圍
|
大資料 - 指大量或複雜的資料集,難以儲存和分析。
大資料是用來描述規模巨大或結構複雜、難以儲存、處理和分析的資料集的通用術語。大資料的三個主要特徵是
- 體量: 資料量非常大。
- 多樣性: 收集的資料型別廣泛多樣,可能難以分類。
- 速度: 資料變化快,可能包括不斷變化的資料來源。
大資料缺乏結構性被認為是造成最大困難的因素。因此,傳統的資料分析和組織方法,例如關係資料庫或 SQL,在處理大資料時不再有效。然而,當將正確的技術應用於大資料時,可以揭示大量有用的資訊。處理大資料使資料科學家等專業人員能夠發現和分析隱藏的模式和關係,這些模式和關係在以前難以解釋。
大資料用於不同的目的。在某些情況下,它用於記錄事實資料,例如銀行交易。但是,它越來越多地用於分析趨勢,並試圖根據資料中的關係和相關性進行預測。大資料在生活的許多不同領域不斷生成。例如:
- 科學研究
- 零售
- 銀行
- 政府
- 行動網路
- 安全
- 即時應用
- 網際網路。
延遲 - 裝置之間傳輸資料時發生的延遲時間。
延遲在這裡至關重要,可以描述為將原始資料轉換為有意義的資訊所需的時間。對於大資料,由於訪問和操作大量記錄所需的時間,可能存在很大程度的延遲。
結構化資料 - 適合標準資料庫結構(列和行,即欄位和記錄)的資料。
非結構化資料 - 不適合標準資料庫結構(列和行,即欄位和記錄)的資料。
大多數資料庫基於資料將落入列和行(即欄位和記錄)中的模型。這使得資料易於組織和儲存,因為它們可以輸入到相應的欄位中。當分析資料時,執行搜尋和排序以查詢資料相對容易。某些資料不適合此模型。資料可以定義為結構化或非結構化。
- 結構化資料: 可以使用傳統資料庫技術(使用欄位和記錄)定義的資料。
- 非結構化資料: 無法在列和行中定義的資料。這些可能包括多媒體資料、網頁以及電子郵件、文件、簡報的內容。這種型別的資料更難分析。