每個用 Excel 管理客戶、訂單或庫存的人,都遇過這種檔案:同一個客戶因為打字習慣不同出現三次、電話有的全形有的半形、日期一下「2026/6/1」一下「6月1日」、一堆欄位空著、還有人把金額欄填了「約一萬多」。這種檔案拿去做樞紐分析、寄行銷信、算營收,結果一定錯。
這篇要解決的問題:教你用 AI 把一份雜亂、不一致、有重複又有破洞的資料,系統性地清理成一份乾淨、一致、可直接使用的表格,過程不需要寫程式。 適合誰讀:行政、業務助理、行銷、營運、店家老闆——任何手上有 Excel 或 Google Sheets,卻常被髒資料拖累的人。 讀完你會得到:一套可重複的資料清理流程、可複製的 AI Prompt、一張清理 Workflow,以及一個台灣中小企業導入前後的真實對照與成果數據。
一句話 TL;DR:資料清理的關鍵不是叫 AI「幫我整理一下」,而是你先把清理規則一條條寫清楚,讓 AI 照規則辦事、再由你抽樣驗證——AI 是執行者,規則和把關都在你手上。
免責聲明:本文涉及客戶個資處理的部分為教學示範,實際操作請依《個人資料保護法》與貴公司資安政策辦理;AI 可能誤判或改錯資料,重要檔案務必先備份並人工驗證後再使用。
為什麼值得用 AI 清資料?
資料清理在很多公司是「沒人想做但又非做不可」的工作。一份從不同來源匯整來的客戶名單,往往要花好幾個小時手動比對、刪重複、改格式,做到眼睛酸、心情煩,還容易漏。這正是 AI 最能發揮的場景,原因有三。
第一,它擅長處理重複又瑣碎的規則性工作。把全形電話改半形、把「台北市」「臺北市」「台北」統一、把多餘空白刪掉——這些對人類來說無聊又費神,AI 一次就能套用到整欄。
第二,它看得懂「不一致」。傳統 Excel 函式要你精準描述每一種錯誤格式,但真實資料的亂法千奇百怪。AI 能理解「這些其實是同一個意思」,例如「股份有限公司」「股份公司」「(股)」指的是同一種公司型態,這是純公式很難做到的。
第三,它能把清理邏輯轉成可批次執行的工具。當資料量大到聊天視窗塞不下,你可以請 AI 把清理規則寫成 Excel 公式、Google Sheets 函式、Power Query 步驟或 Python 程式碼,讓工具一口氣跑完幾萬列。AI 定規則、工具跑量,兩者分工。
但要先講清楚一個前提:AI 不會自己知道你要的「乾淨」長什麼樣。你覺得理所當然的規則,它不一定猜得到。所以真正的差別不在 AI 強不強,而在你有沒有把規則講清楚、有沒有認真驗證。把這兩件事做好,幾小時的工作能縮到十幾分鐘;做不好,它可能默默把你的資料改得更亂。
核心概念:髒資料的五種樣態
要清得乾淨,先要認得髒。雜亂資料大致可歸成五種樣態,認得它們,你才知道每一欄該下什麼指令。
| 髒資料樣態 | 具體例子 | 風險 | AI 的處理方式 |
|---|---|---|---|
| 格式不一致 | 電話全形半形混雜、日期寫法五花八門 | 排序、篩選、計算全錯 | 依規則統一成單一標準格式 |
| 缺失值 | 電話欄、地區欄一堆空白 | 寄信漏人、統計失真 | 可推斷的補、關鍵欄標記待補 |
| 重複資料 | 同一客戶出現多次 | 重複行銷、灌水營收數字 | 用主鍵找出重複列並標記 |
| 異常與錯誤值 | 年齡 300、金額為負、Email 沒有 @ | 分析被極端值帶偏 | 標出不合理值交人工判斷 |
| 結構性問題 | 一欄塞了姓名加電話、地址沒拆 | 無法獨立篩選與分析 | 拆欄、合併、轉置成規整結構 |
理解這張表之後,清理就不再是「看哪裡亂就改哪裡」的瞎忙,而是有系統地一類一類處理。一份典型的客戶名單,通常五種問題都有;你只要照樣態逐一下指令,就不會漏。
這裡有個常被忽略的觀念叫「資料的單一事實來源」。清理的終極目的,是讓「同一件事在資料裡只有一種寫法」——一個客戶只有一列、一個地區只有一種拼法、一種日期只有一種格式。掌握這個原則,你對「該清到什麼程度」就有了判準。
實際做法:五步驟把髒資料清乾淨
Step 1:先盤點,別急著動手
最常見的錯誤就是拿到檔案立刻開始改。正確的第一步是請 AI 幫你做「資料體檢」:把欄位名稱、每欄的資料型態、缺失比例、重複大概有多少、有沒有一眼可見的異常值,全部摸清楚。看清楚問題全貌,才不會清到一半才發現方向錯了。
這一步的產出是一份「問題清單」,例如:電話欄有 30% 是全形、地區欄缺失 15%、疑似重複 40 列。有了清單,後面每一步都有的放矢。
Step 2:把清理規則一條條寫死
這是整個流程最關鍵的一步。不要對 AI 說「幫我整理乾淨」,而要給它明確規則。把你心中的「乾淨」翻譯成可執行的條文,例如:
- 電話:統一成 09 開頭、半形、共十碼,去掉橫線與空格
- 日期:統一成 YYYY-MM-DD
- 公司名:去掉「股份有限公司」「有限公司」字樣,只留主名
- 地區:「臺」一律改「台」,並補上縣市層級
- 金額:去掉「約」「元」「多」等字,只留純數字
規則愈具體,AI 出錯的空間愈小。模糊的指令會換來模糊的結果。
Step 3:處理缺失值與統一格式
按規則開始清。缺失值要先決定策略:能從其他欄位推斷的(例如有地址就能補出縣市)可以請 AI 補;不能查證的關鍵欄位(金額、聯絡方式)絕對不要讓 AI 憑空生成,改成標記「待補」交回人工。同時統一全形半形、大小寫、多餘空白、單位與幣別寫法。
若資料量大,這一步就請 AI 產出對應的 Excel 公式或 Power Query 步驟,拿去批次套用,而不是逐列丟給聊天視窗。
Step 4:去重與抓異常值
去重的核心是「主鍵」——你用什麼判斷兩列是同一筆。最可靠的是統一編號、Email 這類唯一值;若只能用姓名,務必搭配電話或地址組合,避免同名誤刪。請 AI 把「完全重複」直接合併,把「疑似重複但欄位有出入」的另外列出來給你定奪。
同時請 AI 標出不合理值:年齡超過 120、金額為負、Email 缺 @、日期落在未來等。這些不一定要刪,而是標記出來讓你判斷是輸入錯誤還是真有其事。
Step 5:抽樣驗證,再上線
清完不要全盤信任。隨機抽 20 到 30 列,把清理前後對照人工核對,確認沒有誤刪、誤改。再請 AI 輸出一份「變更摘要」:刪了幾列、改了幾欄、補了幾筆。對照前後總筆數是否合理。三者都通過,這份資料才算可用——而且原始檔要一直留著當還原依據。
可複製的 Prompt
把下面這段貼進你的 AI 工具,依實際情況替換大括號內容。它涵蓋了規則、驗證與安全三個重點:
你是一位資深資料清理專員。我會貼上一份從 Excel 複製的表格資料,請依下列規則清理,並嚴格遵守驗證要求。
【資料欄位】
{例如:客戶姓名、公司名、電話、Email、地區、最近消費金額、建檔日期}
【清理規則】(請完全照辦,勿自由發揮)
1. 電話:統一成 09 開頭、半形、十碼,移除橫線與空格;不符格式者標記「電話異常」
2. 日期:統一成 YYYY-MM-DD
3. 地區:「臺」改「台」,並補上縣市層級
4. 公司名:去掉「股份有限公司/有限公司」,只留主名
5. 金額:去掉非數字字元,只留純數字;無法判讀者標記「金額待確認」
6. 全形標點與多餘空白一律清掉
【缺失值處理】
- 能從其他欄位推斷的(如有地址補縣市)可補,並在備註欄註明「AI 推斷」
- 金額、Email、電話若空白,標記「待補」,禁止憑空生成
【去重】
- 主鍵:{例如 Email;若無則用姓名+電話}
- 完全重複直接合併保留最新一筆
- 疑似重複但有出入者,另列一張清單給我確認,勿自動刪除
【輸出要求】
1. 清理後的完整表格(保留原欄位順序,新增一欄「備註」記錄改動)
2. 一份變更摘要:原始列數、清理後列數、各欄改動筆數、合併幾列
3. 一份「需人工確認清單」:疑似重複、異常值、待補欄位
【安全】這是教學用資料,若內含真實個資,僅就格式邏輯處理,勿輸出任何推測性的個人資訊。
以下是資料:
{貼上你的表格}
這段 Prompt 的設計重點:先給規則、再要求驗證輸出、最後加上安全約束。你會發現它逼 AI 交出「變更摘要」與「需人工確認清單」,這正是讓你能把關、而非盲信的關鍵。
台灣中小企業實作案例
背景:台中一家經營了十二年的烘焙原料行,客戶以中小型麵包店與烘焙教室為主。他們累積了一份近 4,800 筆的客戶名單,但這份名單是過去從手寫訂單、LINE 對話、展場留資、官網表單分頭匯入的,格式極度混亂。
導入前的痛點:
- 同一家店因為店名打法不同(「○○烘焙坊」「○○烘焙」「○○麵包」)重複出現,估計重複超過 600 筆
- 電話欄全形半形混雜,約三成無法直接撥打或匯入簡訊系統
- 地區欄缺失約 18%,無法做區域性的促銷分眾
- 每次要寄電子報或發促銷簡訊,行政人員都得手動整理大半天,常常寄重複或漏寄
導入做法:他們沒有買昂貴系統,而是讓一位行政同仁用 AI 聊天工具,照本文的五步驟流程處理。先做資料體檢列出問題清單,再把清理規則寫成上面那段 Prompt,分批(每批約 500 列)餵給 AI,並請 AI 同步產出 Google Sheets 的格式統一公式套用到整份名單。去重時用「店名+電話」當主鍵,疑似重複的另列清單由熟客戶的業務同仁人工確認。最後抽樣 30 筆核對才上線。整個專案斷斷續續花了約兩個工作天。
導入後的成果:
- 名單從 4,800 筆去重後變成乾淨的 4,150 筆,刪除 650 筆重複
- 電話格式統一率達 100%,可直接匯入簡訊系統,過去三成無法使用的號碼透過格式修正救回大半
- 地區欄缺失從 18% 降到 4%(其餘為確實無資料、標記待補)
- 每月電子報與促銷簡訊的整理時間,從原本每次約 4 小時降到約 30 分鐘
- 首次用乾淨名單做的區域性促銷,因為分眾精準,回購率較前一檔提升約兩成
這個案例的重點不是 AI 多神,而是「規則寫清楚+人工把關+分批處理」這套紀律。同樣一份名單,若只丟一句「幫我整理乾淨」,很可能把同名不同店的客戶誤併、把救得回的號碼直接刪掉。流程對了,普通的 AI 工具也能做出可靠成果。
常見錯誤,別踩
錯誤一:沒備份就直接清。 清理是破壞性操作,去重刪錯、格式轉壞都回不去。永遠在副本上做,原始檔唯讀留存。
錯誤二:規則沒寫清楚就叫 AI 自由發揮。 「幫我整理」會換來它自己猜的標準,可能跟你要的完全不同。規則愈具體,結果愈可控。
錯誤三:讓 AI 憑空補關鍵欄位。 地區可以推斷,但金額、電話、Email 不行。補錯的資料比空白更危險,因為它看起來是對的。
錯誤四:一次塞太多列導致截斷。 聊天視窗有上限,硬塞會默默漏掉後面的資料。分批,或改用公式、程式批次跑。
錯誤五:清完不驗證就上線。 輸出整齊不代表正確。一定要抽樣人工核對、對照前後筆數、看變更摘要,三關都過才算數。
錯誤六:把真實個資直接貼進公開工具。 涉及大量個資時,先代號化敏感欄位,或改用有資料不留存承諾的服務,並確認符合個資法規範。
結論
資料清理聽起來枯燥,卻是所有數據工作的地基。地基歪了,上面蓋的分析、行銷、決策全都會跟著歪。AI 讓這件苦差事從「耗一整天的人工苦工」變成「十幾分鐘的規則套用」,但前提是你要扮演好「規則制定者」與「把關者」這兩個角色——把清理規則一條條寫清楚,再用抽樣驗證守住品質。
記住三句話:先盤點再動手、規則寫死別讓它猜、清完一定要驗證。 做到這三點,你手上那份亂七八糟的 Excel,就能變成可以放心拿去寄信、分析、做決策的乾淨資料。
清乾淨之後,下一步自然是從資料裡找洞察。建議接著看 AI 資料分析教學 把乾淨資料變成決策依據;若你想把格式統一交給公式自動處理,AI 試算表公式教學 能幫你用白話產生 Excel 函式;想連建檔輸入都自動化,可參考 AI 資料輸入自動化。要把整套清理流程變成可重複執行的標準作業,AI Workflow 設計 會很有用;而挑選合適工具,則可逛逛 AI 工具庫。
常見問題 FAQ
把客戶資料貼給 AI 清理,會有個資外洩風險嗎?
資料有幾萬列,AI 一次處理得了嗎?
AI 自動補的缺失值可以直接用嗎?
為什麼清理前一定要先備份原始檔?
去重時 AI 怎麼判斷兩筆是同一個人?
清理完怎麼確認 AI 沒有偷偷改錯?
沒有寫程式背景,這套流程做得來嗎?
這跟資料分析是同一件事嗎?
延伸閱讀
每週把這類實戰教學寄給你
訂閱 AgentAI 智庫情報週報,新的 Prompt、AI Skills、工作流與教學第一時間收到。
免費 · 隨時取消