我夢寐以求的物聯網/第 5 章:物聯網和大資料
物聯網(IoT)是未來網際網路不可分割的一部分,它可以讓物理和虛擬事物與物件、動物或人互動,並接收唯一的識別符號。它還具有自配置功能,能夠在不需要互動的情況下透過網際網路網路傳輸資料。[1] 物聯網已經發展了幾十年,但直到 1999 年才被命名。例如,第一個網際網路裝置是卡內基梅隆大學在 1980 年代初的自動售貨機。程式設計師可以連線到網際網路上的自動售貨機,檢查自動售貨機的狀態,並確定他們是否想去自動售貨機拿冷飲。[1] 如今,物聯網應用於許多可以造福人類的系統,包括機器對機器系統、雲系統、人機系統和大資料系統。“大資料”是一個流行詞,用於描述如今許多企業積累的海量結構化和非結構化資料,這些資料難以用傳統的資料庫和軟體技術進行處理和管理。[2] 大資料很重要,它有可能幫助企業做出更快、更明智的決策,同時也能改善企業運營。[3] 大資料應用的一個簡單例子:零售商可以跟蹤使用者網站點選,以識別有助於改進活動、定價和產品庫存的行為趨勢。
關於商業、工業和其他應用,物聯網和大資料是兩個不同的主題。物聯網指的是連線到網際網路的裝置世界,這是收集、儲存和管理大量資料的途徑。大資料的討論還包括對這些資訊的分析,以產生有用的結果。簡而言之,大資料是關於資料本身,物聯網是關於資料、裝置和連線性。[4]
物聯網包含三個主要元件:事物(或資產)本身、連線它們的通訊網路以及利用從事物流入和流出資料的計算系統。使用這種結構,資產可以相互通訊,並根據流經網路的資料分析結果來最佳化它們之間的活動。[4] 另一方面,大資料則與資料建立、儲存、檢索和分析相關,這些資料的規模在以下方面非常顯著:[5][6][7]
體積
除了其固有的價值和潛力,大量結構化和非結構化資料的數量在很大程度上決定了它是否可以被認為是大資料。IBM 在 2014 年估計,大多數美國公司至少儲存了 100 太位元組的資料。[7]
多樣性
大資料不僅僅來自一個行業的單一格式。從醫療保健到社交媒體,資料型別和格式的多樣性與體積一樣令人望而生畏。
速度
這指的是生成和分析大資料的速度,以滿足需求。
真實性
捕獲的資料質量可能差異很大。分析的準確性取決於源資料的真實性。IBM 在 2014 年估計,資料質量差每年給美國經濟造成 3.1 萬億美元的損失。[7]
可變性
這指的是資料有時表現出的不一致性,從而阻礙了有效處理和管理資料的過程。
複雜性
我們生成的大量資料需要進行連結、連線和關聯,以保持一定程度的有用性。複雜性指的是大資料的那些使這項任務更難的屬性。
儘管存在這些挑戰,物聯網和大資料仍然可以用於改善運營。它有助於確定資料是在哪裡生成和收集的,涵蓋了廣泛的垂直市場,包括但不限於農業、電力、林業、水處理以及幾乎所有型別的製造設施。物聯網和大資料可以潛在地實施,以改進預測性健康監測,減少停機時間,降低報廢率,提高質量,提高產量,改善安全性,簡化勞動力,並實現製造和其他相關垂直行業運營的大規模定製。這些運營改進將最佳地導致更好的產品、更高的產量和更低的成本。
大資料操作因系統而異,但它們本質上都是捕獲和儲存傳入的資料,這些資料將在以後進行分析,以獲得見解,改進運營或做出發現。這種資料處理基於三個主要步驟:資料攝取、儲存和分析。這些資料使用 Hadoop、MapReduce 等新技術進行管理。隨著資料的不斷增加,特別是隨著物聯網透過更多可連線的裝置改變環境,這些工具變得越來越必要。當這種情況發生時,需要引入更好、更快的處理技術,以允許分析所有這些資訊。
根據 TCS 2013 年全球趨勢研究,供應計劃和產品質量方面的改進為製造業帶來了大資料最大的益處。大資料為製造業提供了透明度基礎設施,能夠揭示不確定性,例如不一致的元件效能和可用性。預測性製造作為一種適用於接近零停機時間和透明度的可行方法,需要大量資料和先進的預測工具,以將資料系統地處理成有用的資訊。預測性製造的概念框架從資料採集開始,在資料採集過程中會獲取各種型別的感官資料,包括聲學、振動、壓力、電流、電壓和控制器資料。除歷史資料外,大量感官資料構成了製造業中的大資料。生成的大資料作為預測工具和預防性策略的輸入。
大資料應用的第二大流行領域是硬體、感測器和資訊安全公司管理的物聯網連線裝置。這些裝置位於客戶環境中,它們會向“家”傳送有關裝置使用、健康狀況或安全性的資訊。
例如,儲存製造商 NetApp 使用 Pentaho 軟體來收集和整理來自其客戶站點部署的超過 250,000 臺 NetApp 裝置的訊息。然後,這些非結構化機器資料會被結構化,放入 Hadoop,並被 NetApp 用於分析。[8]
大型企業通常擁有複雜的資訊安全架構,以及安全供應商,它們正在尋找更有效的方式來儲存 PB 級別的事件或機器資料。在過去,這些公司會將這些資訊儲存在關係型資料庫中。這些傳統系統在效能和成本方面往往無法很好地擴充套件。前面提到的 Hadoop 是儲存此類機器資料的更好選擇。
1. 大資料可以提供前所未有的對更多資料的準確訪問。 在其他情況下,非結構化資料會被認為是無價值的,但在大資料中,它可以被收集和分析。它提供了發現以前隱藏的資料相關性和模式的機會。這意味著組織可以訪問更準確的資訊。
2. 大資料可以幫助提供新產品和服務。 大資料分析最有趣的用途是為客戶創造新產品和服務。許多公司已在大資料分析的基礎上,對其工業產品進行了重大投資,以建立新的服務模式。
3. 企業有可能變得更加敏捷,並做出更好的決策。 大資料不僅僅是儲存 PB 級或 EB 級資料的過程。它還關乎透過對這些資料的分析和解讀,在適當的時間做出更好的決策並採取行動。
4. 它有可能創造成本節約。 Hadoop 和基於雲的分析等大資料技術可以提供可觀的成本優勢。傳統的關係型資料庫管理系統的缺點是,為了處理如此大量的資料,它們的擴充套件成本極其高昂。然而,Hadoop 被設計為一個可擴充套件的架構,可以經濟高效地儲存公司所有資料以供日後使用。
1. 大資料需要增加安全檢查點的數量。 隨著比以往更多的資料儲存在更多地方,以及在更多地方之間移動,駭客入侵這些資料的途徑也大大增加。
2. 預先管理和分析意味著短期內缺乏敏捷性。 事務、電子郵件、分析等資料儲存在多個平臺上。但如果資料沒有得到適當的評估、組織和儲存,關鍵資訊可能難以或無法使用。因此,建立基礎設施和管理資料以充分利用它需要更多時間。
3. 只有少數人擁有正確使用大資料工具的必要技能。 大資料代表了一個快速發展的技術領域。然而,它通常不在大多數大學教授的課程中,而是以反應性的形式學習。這使得找到合適的人才變得更加重要。
大資料的核心是資料,簡單明瞭,而物聯網則是關於資料、裝置和連線。[6] 物聯網和大資料正在重塑人與資訊之間的關係。許多新的硬體和軟體技術已被開發出來,用於將現場感測器資訊從過程的最邊緣收集起來,以分散式或集中式方式收集這些資訊,並透過資料庫和歷史記錄器對其進行管理。這些資料收集任務中的每一項都變得更加自動化,這消除了與手動讀取和資料輸入相關的延遲和錯誤因素。改進和自動化資料收集、集中和管理,使終端使用者能夠充分利用視覺化和分析軟體,使其運營更加高效。
- ↑ a b Rouse, M. (June 2014). "Internet of Things (IoT)". IoT Agenda. TechTarget. Retrieved 4 June 2016.
- ↑ "Big data". Wikipedia. Wikimedia Foundation. Retrieved 4 June 2016.
- ↑ Beal, V. (25 May 2011). "big data". Webopedia. QuinStreet, Inc. Retrieved 4 June 2016.
- ↑ a b "IoT and Big Data Combine Forces" (PDF). Advantech. 2013. p. 11. Retrieved 4 June 2016.
- ↑ "Internet of Things (IoT): What it is and why it matters". SAS Institute, Inc. Retrieved 4 June 2016.
- ↑ a b Dull, T. (2014 年 12 月 11 日). "大資料和物聯網:同一枚硬幣的兩面?". SmartDataCollective. Industry Dive, Inc. 檢索於 2016 年 6 月 4 日.
- ↑ a b c "大資料的四個 V". IBM, Inc. 2014. 檢索於 2016 年 6 月 4 日.
- ↑ Henry, D. (2013 年 3 月 6 日). "使用 Hadoop 和裝置資料分析改善客戶支援". Pentaho 部落格. Pentaho Corporation. 檢索於 2016 年 6 月 4 日.