數(shù)據(jù)科學(xué)是一門新興的以數(shù)據(jù)為研究中心的學(xué)科。作為一門學(xué)科,數(shù)據(jù)科學(xué)以數(shù)據(jù)的廣泛
性和多樣性為基礎(chǔ),探尋數(shù)據(jù)硏究的共性。數(shù)據(jù)科學(xué)也是一門關(guān)于數(shù)據(jù)工程的學(xué)科,它需要同
時(shí)具備理論基礎(chǔ)和工程經(jīng)驗(yàn),需要掌握各種工具的用法。數(shù)據(jù)科學(xué)主要包括兩個(gè)方面:用數(shù)據(jù)
的方法來(lái)硏究科學(xué)和用科學(xué)的方法來(lái)研究數(shù)據(jù)。數(shù)據(jù)清洗是數(shù)據(jù)科學(xué)家完成數(shù)據(jù)分析和處理任
務(wù)過(guò)程中必須面對(duì)的重要環(huán)。具體來(lái)說(shuō),數(shù)據(jù)科學(xué)的一般處理過(guò)程包括如下幾個(gè)步驟:
(1)問(wèn)題陳述:明確需要解決的問(wèn)題和任務(wù)。
(2)數(shù)據(jù)收集與存儲(chǔ):通過(guò)多種手段采集和存放來(lái)自眾多數(shù)據(jù)源的數(shù)據(jù)。
(3)數(shù)據(jù)清洗:對(duì)數(shù)據(jù)進(jìn)行針對(duì)性的整理和規(guī)范,以便于后面的分析和處理。
(4)數(shù)據(jù)分析和挖掘:運(yùn)用特定模型和算法來(lái)尋求數(shù)據(jù)中隱含的知識(shí)和規(guī)律。
(5)數(shù)據(jù)呈現(xiàn)和可視化:以恰當(dāng)?shù)姆绞匠尸F(xiàn)數(shù)據(jù)分析和挖掘的結(jié)果
(6)科學(xué)決策:根據(jù)數(shù)據(jù)分析和處理結(jié)果來(lái)決定問(wèn)題的解決方案。
來(lái)自多樣化數(shù)據(jù)源的數(shù)據(jù)內(nèi)容并不完美,存在著許多“臟數(shù)據(jù)”,即數(shù)據(jù)不完整、有
缺失,存在錯(cuò)誤和重復(fù)的數(shù)據(jù),數(shù)據(jù)中有不一致和沖突等缺陷。數(shù)據(jù)清洗就是對(duì)數(shù)據(jù)進(jìn)行
審查和校驗(yàn),發(fā)現(xiàn)不準(zhǔn)確、不完整或不合理的數(shù)據(jù),進(jìn)而刪除重復(fù)信息、糾正存在的錯(cuò)誤,
并保持?jǐn)?shù)據(jù)的一致性、精確性、完整性和有效性,以提高數(shù)據(jù)的質(zhì)量。
數(shù)據(jù)清洗并沒(méi)有統(tǒng)一的定義,其定義依賴于具體的應(yīng)用領(lǐng)域。從廣義上講,數(shù)據(jù)清洗
是將原始數(shù)據(jù)進(jìn)行精簡(jiǎn)以去除冗余和消除不一致性,并使剩余的數(shù)據(jù)轉(zhuǎn)換成可接收的標(biāo)準(zhǔn)
格式的過(guò)程。