計算機革命/資料庫/資料探勘
外觀
< 計算機革命
資料探勘是一種利用關聯規則收集大量資料的過程。它結合了統計學、資料收集以及模式和趨勢的識別。當今最常見的資料探勘型別是在程式中使用記錄計算機習慣、訪問的網站以及有關使用者和計算機的更多資訊的程式。對資料的分析提供了由各種組織使用的配置檔案。通常,用於執行資料探勘的程式包含在購買的軟體和下載的軟體中。但是,它也經常透過使用病毒、蠕蟲或其他惡意工具安裝在計算機上。
資料探勘本身並不存在任何內在的危險。最令人擔憂的是資訊的利用。當此類技術可以包括信用卡號和銀行賬戶等資訊時,資料使用存在明顯的令人擔憂的可能性。所謂的“無內在危險”是指軟體資料探勘收集不會損壞計算機,它只是記錄計算機正在做什麼。
收集如此大量資訊的主要原因之一是轉售。不同的線上商家想知道每個線上購物者在何時何地消費。然後,他們可以使用這些資訊將營銷和時間安排到更專門的市場。
被挖掘或收集的資料可以來自各種來源。如上所述,最常見的資料探勘形式是感染計算機。它也可以從 POS(銷售點)交易、各種資料庫、線上資源、文章等中提取。雖然這是一種簡單的資訊收集方式,但也有離線來源和資料庫可以透過傳統的手動資料輸入包含在內。
公司必須過濾收到的所有資訊,以找到其消費者需要的資訊。公司希望只有一種型別的資訊,這可能需要時間來破譯所有資訊,並檢視例如誰購買了 Huggies 品牌尿布。所有這些資訊都將被融合在一起並清理。許多這些資料來源都存在問題,例如不一致或質量差。必須清理這些問題並檢查格式的一致性。
元資料是關於資料的描述資訊;它描述了特定資料集是如何、何時以及由誰收集的,以及它的格式。元資料對於理解儲存在資料倉庫中的資訊至關重要。
資料倉庫是一個專門的資料庫,儲存著清理過的資料和元資料。資料和元資料都將傳送到資料倉庫。