隨著物聯(lián)網(wǎng)、云計算、數(shù)據(jù)技術的快速發(fā)展,迎來了大數(shù)據(jù)時代。大數(shù)據(jù)技術改變了
傳統(tǒng)的數(shù)據(jù)收集、處理與應用模式,為大量行業(yè)的跨越式發(fā)展帶來了新的機遇。從字面上
理解,數(shù)據(jù)清洗( Data Cleaning( leaning)就是把“臟”的數(shù)據(jù)進行“清洗”,也就是發(fā)現(xiàn)并
糾正數(shù)據(jù)文件中可能岀現(xiàn)的錯誤,包括檢査數(shù)據(jù)一致性、處理無效值和缺失值等。通常在
數(shù)據(jù)倉庫中的數(shù)據(jù)都是面向某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個業(yè)務系統(tǒng)中抽取而來
而且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯誤數(shù)據(jù),有的數(shù)據(jù)相互之間有沖突,這
些錯誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱為“臟數(shù)據(jù)”。我們要按照一定的規(guī)則
把“臟數(shù)據(jù)”洗掉,這就是數(shù)據(jù)清洗。數(shù)據(jù)清洗的任務是過濾那些不符合要求的數(shù)據(jù),將
過濾的結果交給業(yè)務主管部門,確認是否過濾掉那些“臟數(shù)據(jù)”還是由業(yè)務單位修正之后
再進行抽取。