用 AI 清理與整理雜亂資料:從髒數據到可用表格的完整教學

每個用 Excel 管理客戶、訂單或庫存的人,都遇過這種檔案:同一個客戶因為打字習慣不同出現三次、電話有的全形有的半形、日期一下「2026/6/1」一下「6月1日」、一堆欄位空著、還有人把金額欄填了「約一萬多」。這種檔案拿去做樞紐分析、寄行銷信、算營收,結果一定錯。

這篇要解決的問題:教你用 AI 把一份雜亂、不一致、有重複又有破洞的資料,系統性地清理成一份乾淨、一致、可直接使用的表格,過程不需要寫程式。 適合誰讀:行政、業務助理、行銷、營運、店家老闆——任何手上有 Excel 或 Google Sheets,卻常被髒資料拖累的人。 讀完你會得到:一套可重複的資料清理流程、可複製的 AI Prompt、一張清理 Workflow,以及一個台灣中小企業導入前後的真實對照與成果數據。

一句話 TL;DR:資料清理的關鍵不是叫 AI「幫我整理一下」,而是你先把清理規則一條條寫清楚,讓 AI 照規則辦事、再由你抽樣驗證——AI 是執行者,規則和把關都在你手上。

免責聲明:本文涉及客戶個資處理的部分為教學示範,實際操作請依《個人資料保護法》與貴公司資安政策辦理;AI 可能誤判或改錯資料,重要檔案務必先備份並人工驗證後再使用。

為什麼值得用 AI 清資料?

資料清理在很多公司是「沒人想做但又非做不可」的工作。一份從不同來源匯整來的客戶名單,往往要花好幾個小時手動比對、刪重複、改格式,做到眼睛酸、心情煩,還容易漏。這正是 AI 最能發揮的場景,原因有三。

第一,它擅長處理重複又瑣碎的規則性工作。把全形電話改半形、把「台北市」「臺北市」「台北」統一、把多餘空白刪掉——這些對人類來說無聊又費神,AI 一次就能套用到整欄。

第二,它看得懂「不一致」。傳統 Excel 函式要你精準描述每一種錯誤格式,但真實資料的亂法千奇百怪。AI 能理解「這些其實是同一個意思」,例如「股份有限公司」「股份公司」「(股)」指的是同一種公司型態,這是純公式很難做到的。

第三,它能把清理邏輯轉成可批次執行的工具。當資料量大到聊天視窗塞不下,你可以請 AI 把清理規則寫成 Excel 公式、Google Sheets 函式、Power Query 步驟或 Python 程式碼,讓工具一口氣跑完幾萬列。AI 定規則、工具跑量,兩者分工。

但要先講清楚一個前提:AI 不會自己知道你要的「乾淨」長什麼樣。你覺得理所當然的規則,它不一定猜得到。所以真正的差別不在 AI 強不強,而在你有沒有把規則講清楚、有沒有認真驗證。把這兩件事做好,幾小時的工作能縮到十幾分鐘;做不好,它可能默默把你的資料改得更亂。

核心概念:髒資料的五種樣態

要清得乾淨,先要認得髒。雜亂資料大致可歸成五種樣態,認得它們,你才知道每一欄該下什麼指令。

髒資料樣態具體例子風險AI 的處理方式
格式不一致電話全形半形混雜、日期寫法五花八門排序、篩選、計算全錯依規則統一成單一標準格式
缺失值電話欄、地區欄一堆空白寄信漏人、統計失真可推斷的補、關鍵欄標記待補
重複資料同一客戶出現多次重複行銷、灌水營收數字用主鍵找出重複列並標記
異常與錯誤值年齡 300、金額為負、Email 沒有 @分析被極端值帶偏標出不合理值交人工判斷
結構性問題一欄塞了姓名加電話、地址沒拆無法獨立篩選與分析拆欄、合併、轉置成規整結構

理解這張表之後,清理就不再是「看哪裡亂就改哪裡」的瞎忙,而是有系統地一類一類處理。一份典型的客戶名單,通常五種問題都有;你只要照樣態逐一下指令,就不會漏。

這裡有個常被忽略的觀念叫「資料的單一事實來源」。清理的終極目的,是讓「同一件事在資料裡只有一種寫法」——一個客戶只有一列、一個地區只有一種拼法、一種日期只有一種格式。掌握這個原則,你對「該清到什麼程度」就有了判準。

實際做法:五步驟把髒資料清乾淨

Step 1:先盤點,別急著動手

最常見的錯誤就是拿到檔案立刻開始改。正確的第一步是請 AI 幫你做「資料體檢」:把欄位名稱、每欄的資料型態、缺失比例、重複大概有多少、有沒有一眼可見的異常值,全部摸清楚。看清楚問題全貌,才不會清到一半才發現方向錯了。

這一步的產出是一份「問題清單」,例如:電話欄有 30% 是全形、地區欄缺失 15%、疑似重複 40 列。有了清單,後面每一步都有的放矢。

Step 2:把清理規則一條條寫死

這是整個流程最關鍵的一步。不要對 AI 說「幫我整理乾淨」,而要給它明確規則。把你心中的「乾淨」翻譯成可執行的條文,例如:

規則愈具體,AI 出錯的空間愈小。模糊的指令會換來模糊的結果。

Step 3:處理缺失值與統一格式

按規則開始清。缺失值要先決定策略:能從其他欄位推斷的(例如有地址就能補出縣市)可以請 AI 補;不能查證的關鍵欄位(金額、聯絡方式)絕對不要讓 AI 憑空生成,改成標記「待補」交回人工。同時統一全形半形、大小寫、多餘空白、單位與幣別寫法。

若資料量大,這一步就請 AI 產出對應的 Excel 公式或 Power Query 步驟,拿去批次套用,而不是逐列丟給聊天視窗。

Step 4:去重與抓異常值

去重的核心是「主鍵」——你用什麼判斷兩列是同一筆。最可靠的是統一編號、Email 這類唯一值;若只能用姓名,務必搭配電話或地址組合,避免同名誤刪。請 AI 把「完全重複」直接合併,把「疑似重複但欄位有出入」的另外列出來給你定奪。

同時請 AI 標出不合理值:年齡超過 120、金額為負、Email 缺 @、日期落在未來等。這些不一定要刪,而是標記出來讓你判斷是輸入錯誤還是真有其事。

Step 5:抽樣驗證,再上線

清完不要全盤信任。隨機抽 20 到 30 列,把清理前後對照人工核對,確認沒有誤刪、誤改。再請 AI 輸出一份「變更摘要」:刪了幾列、改了幾欄、補了幾筆。對照前後總筆數是否合理。三者都通過,這份資料才算可用——而且原始檔要一直留著當還原依據。

可複製的 Prompt

把下面這段貼進你的 AI 工具,依實際情況替換大括號內容。它涵蓋了規則、驗證與安全三個重點:

你是一位資深資料清理專員。我會貼上一份從 Excel 複製的表格資料,請依下列規則清理,並嚴格遵守驗證要求。

【資料欄位】
{例如:客戶姓名、公司名、電話、Email、地區、最近消費金額、建檔日期}

【清理規則】(請完全照辦,勿自由發揮)
1. 電話:統一成 09 開頭、半形、十碼,移除橫線與空格;不符格式者標記「電話異常」
2. 日期:統一成 YYYY-MM-DD
3. 地區:「臺」改「台」,並補上縣市層級
4. 公司名:去掉「股份有限公司/有限公司」,只留主名
5. 金額:去掉非數字字元,只留純數字;無法判讀者標記「金額待確認」
6. 全形標點與多餘空白一律清掉

【缺失值處理】
- 能從其他欄位推斷的(如有地址補縣市)可補,並在備註欄註明「AI 推斷」
- 金額、Email、電話若空白,標記「待補」,禁止憑空生成

【去重】
- 主鍵:{例如 Email;若無則用姓名+電話}
- 完全重複直接合併保留最新一筆
- 疑似重複但有出入者,另列一張清單給我確認,勿自動刪除

【輸出要求】
1. 清理後的完整表格(保留原欄位順序,新增一欄「備註」記錄改動)
2. 一份變更摘要:原始列數、清理後列數、各欄改動筆數、合併幾列
3. 一份「需人工確認清單」:疑似重複、異常值、待補欄位

【安全】這是教學用資料,若內含真實個資,僅就格式邏輯處理,勿輸出任何推測性的個人資訊。

以下是資料:
{貼上你的表格}

這段 Prompt 的設計重點:先給規則、再要求驗證輸出、最後加上安全約束。你會發現它逼 AI 交出「變更摘要」與「需人工確認清單」,這正是讓你能把關、而非盲信的關鍵。

台灣中小企業實作案例

背景:台中一家經營了十二年的烘焙原料行,客戶以中小型麵包店與烘焙教室為主。他們累積了一份近 4,800 筆的客戶名單,但這份名單是過去從手寫訂單、LINE 對話、展場留資、官網表單分頭匯入的,格式極度混亂。

導入前的痛點

導入做法:他們沒有買昂貴系統,而是讓一位行政同仁用 AI 聊天工具,照本文的五步驟流程處理。先做資料體檢列出問題清單,再把清理規則寫成上面那段 Prompt,分批(每批約 500 列)餵給 AI,並請 AI 同步產出 Google Sheets 的格式統一公式套用到整份名單。去重時用「店名+電話」當主鍵,疑似重複的另列清單由熟客戶的業務同仁人工確認。最後抽樣 30 筆核對才上線。整個專案斷斷續續花了約兩個工作天。

導入後的成果

這個案例的重點不是 AI 多神,而是「規則寫清楚+人工把關+分批處理」這套紀律。同樣一份名單,若只丟一句「幫我整理乾淨」,很可能把同名不同店的客戶誤併、把救得回的號碼直接刪掉。流程對了,普通的 AI 工具也能做出可靠成果。

常見錯誤,別踩

錯誤一:沒備份就直接清。 清理是破壞性操作,去重刪錯、格式轉壞都回不去。永遠在副本上做,原始檔唯讀留存。

錯誤二:規則沒寫清楚就叫 AI 自由發揮。 「幫我整理」會換來它自己猜的標準,可能跟你要的完全不同。規則愈具體,結果愈可控。

錯誤三:讓 AI 憑空補關鍵欄位。 地區可以推斷,但金額、電話、Email 不行。補錯的資料比空白更危險,因為它看起來是對的。

錯誤四:一次塞太多列導致截斷。 聊天視窗有上限,硬塞會默默漏掉後面的資料。分批,或改用公式、程式批次跑。

錯誤五:清完不驗證就上線。 輸出整齊不代表正確。一定要抽樣人工核對、對照前後筆數、看變更摘要,三關都過才算數。

錯誤六:把真實個資直接貼進公開工具。 涉及大量個資時,先代號化敏感欄位,或改用有資料不留存承諾的服務,並確認符合個資法規範。

結論

資料清理聽起來枯燥,卻是所有數據工作的地基。地基歪了,上面蓋的分析、行銷、決策全都會跟著歪。AI 讓這件苦差事從「耗一整天的人工苦工」變成「十幾分鐘的規則套用」,但前提是你要扮演好「規則制定者」與「把關者」這兩個角色——把清理規則一條條寫清楚,再用抽樣驗證守住品質。

記住三句話:先盤點再動手、規則寫死別讓它猜、清完一定要驗證。 做到這三點,你手上那份亂七八糟的 Excel,就能變成可以放心拿去寄信、分析、做決策的乾淨資料。

清乾淨之後,下一步自然是從資料裡找洞察。建議接著看 AI 資料分析教學 把乾淨資料變成決策依據;若你想把格式統一交給公式自動處理,AI 試算表公式教學 能幫你用白話產生 Excel 函式;想連建檔輸入都自動化,可參考 AI 資料輸入自動化。要把整套清理流程變成可重複執行的標準作業,AI Workflow 設計 會很有用;而挑選合適工具,則可逛逛 AI 工具庫

常見問題 FAQ

把客戶資料貼給 AI 清理,會有個資外洩風險嗎?
有,要看你用哪種工具。把真實姓名、電話、地址貼進公開版聊天機器人,資料可能被用於訓練。較安全的做法是先把敏感欄位代號化(例如改成 C001、C002),只讓 AI 處理格式邏輯,或改用有資料不留存承諾的企業版服務、本地端模型。涉及大量個資時,務必先確認合規再操作。
資料有幾萬列,AI 一次處理得了嗎?
聊天介面通常一次只能吃幾百到上千列,硬塞會被截斷或變慢。正確做法是分批處理,或請 AI 幫你寫出清理規則對應的 Excel 公式、Power Query 步驟或 Python 程式碼,再讓工具批次跑完整份資料。AI 負責定規則,工具負責跑量。
AI 自動補的缺失值可以直接用嗎?
看欄位性質。地區、分類這種能從其他欄位推斷的可以參考,但金額、日期、聯絡方式這類關鍵欄位絕對不能讓 AI 憑空生成,補錯比空白更危險。原則是:能查證的才補,不能查證的就標記為待補,交回人工處理。
為什麼清理前一定要先備份原始檔?
因為清理是破壞性操作。一旦去重刪錯列、格式轉換出意外,沒有原始檔就回不去了。標準做法是另存一份原始檔唯讀,所有清理都在副本上做,並保留一欄記錄『這列被改了什麼』,方便事後追查與還原。
去重時 AI 怎麼判斷兩筆是同一個人?
靠你指定的主鍵。最可靠的是統一編號、身分證號或 Email 這類唯一值。若只有姓名容易誤判(同名同姓很多),建議用姓名加電話、或姓名加地址組合判斷,並讓 AI 把『疑似重複但不完全相同』的列另外列出來給你定奪,而非自動刪除。
清理完怎麼確認 AI 沒有偷偷改錯?
三招並用:一是比對清理前後的列數與總筆數是否合理;二是隨機抽樣人工核對至少 20 列;三是請 AI 輸出一份『變更摘要』,列出它做了哪些動作、改了多少筆。三者對得上才算過關,不要因為輸出看起來整齊就放心。
沒有寫程式背景,這套流程做得來嗎?
做得來。本文的核心是用自然語言把清理規則講清楚,AI 會幫你執行或產生可直接貼進 Excel、Google Sheets 的公式與步驟。你需要的是清楚的規則與耐心驗證,而不是程式能力。會打字、看得懂表格就夠了。
這跟資料分析是同一件事嗎?
不是,但是上下游關係。清理是把資料變乾淨、變一致,是準備工作;分析是從乾淨資料找洞察,是後續任務。髒資料直接拿去分析,結論必然失真。先清乾淨再分析,順序不能顛倒。

延伸閱讀

幫這篇打個分:
A
AgentAI 智庫團隊 ✓ 台灣實作團隊

我們是一群專注於 AI Agent、Prompt 與自動化工作流的台灣實作者。每篇教學都附可複製配方、誠實標示實測程度與限制,只分享真正能落地、可直接套用的方法——與其介紹工具,不如教你把事情做完。

關於我們 →看更多教學 →訂閱情報週報 →

每週把這類實戰教學寄給你

訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。

免費 · 隨時取消