統計學/資料分析/資料清洗
外觀
“清洗”是指從資料集中刪除無效資料點的過程。
許多統計分析試圖根據對資料性質的假設或推測,在資料序列中找到模式。“清洗”是指刪除那些資料點的過程,這些資料點要麼 (a) 由於某種僅適用於這些特定資料點的其他因素,明顯與我們試圖隔離的影響或假設無關。 (b) 明顯錯誤,即某些外部錯誤反映在該特定資料點中,可能是由於資料收集、報告等過程中的錯誤造成的。
在這個過程中,我們忽略這些特定的資料點,並在剩餘資料上進行分析。
“清洗”經常涉及人為判斷來決定哪些點是有效的,哪些點不是,並且有可能由於某些影響導致有效資料點,而這些影響在應用的分析方法背後的假設/推測中沒有充分考慮。
要清洗的點通常是極端異常值。“異常值”是指那些不遵循資料中普遍可見的模式的點。檢測異常值的一種方法是繪製資料點(如果可能),並目視檢查生成的圖表,以尋找遠離總體分佈的點。另一種方法是在整個資料集上執行分析,然後消除那些不符合從趨勢變化的數學“控制限”的點,然後在剩餘資料上重複分析。
清洗也可以透過判斷進行,例如在銷售預測中,可以忽略來自銷售資料有誤報傾向的區域/單位的歷史資料。再舉一個例子,在雙盲醫療測試中,醫生可能會忽略一個志願者的結果,而這個志願者恰好是在非專業環境中認識的醫生。
“清洗”有時也指各種其他判斷性/數學方法來驗證資料並刪除可疑資料。
在任何統計分析中,擁有乾淨可靠的資料的重要性怎麼強調都不為過。在現實世界的應用中,分析師往往會被應用方法的複雜性或美觀所吸引,而資料本身可能不可靠,從而導致結果表明行動方向沒有合理依據。一個好的統計學家/研究人員(個人觀點)將 90% 的時間花在收集和清洗資料以及制定涵蓋儘可能多的外部可解釋因素的假設上,只有 10% 的時間花在資料的實際數學操作和得出結果上。