😇 Innocent Face for Big Data
快速、直覺的大數據分析工具,專為非統計背景使用者設計

支援 10 萬筆以上資料 • 完整中文介面 • 詳細術語說明 • 一鍵產生報告

40+
統計指標
7
分析模組
快速開始
1 點擊上方「載入資料」頁籤
2 選擇範例資料或上傳 CSV 檔案
3 點擊「載入資料」按鈕
4 瀏覽各頁籤查看分析結果
功能模組
資料概覽

快速了解資料大小、欄位類型、缺失值情況

資料品質

檢測重複資料、異常值、常數欄位等問題

數值欄位分析

平均、中位數、分位數、偏度、峰度等 30+ 指標

類別欄位分析

眾數、熵值、類別分布、前 N 常見值

相關性分析

Pearson 相關係數矩陣,了解變數間關聯

下載報告

一鍵匯出 HTML 格式的完整分析報告

工具特色
高效能
DuckDB 引擎,輕鬆處理 10 萬筆以上資料
全中文介面
欄位名稱、術語說明皆為繁體中文
詳細說明
每個統計指標都有淺顯易懂的解釋
品質檢測
自動偵測異常值、重複資料等問題
相關工具推薦 資料量 < 10,000 筆適用
如果您的資料量較小(少於 10,000 筆),建議使用以下工具,可獲得更豐富的視覺化圖表分析!
📊 EDA 視覺化版

包含完整的圖表分析功能:直方圖、箱型圖、散佈圖、相關性熱圖等視覺化工具,幫助您更直觀地理解資料分布與關係。

  • 分布圖:直方圖、密度圖、箱型圖
  • 關係圖:散佈圖、相關性熱圖
  • 類別圖:長條圖、圓餅圖
開啟視覺化版
🎯 EDA 互動進階版

除了視覺化功能外,更提供互動式圖表,可縮放、篩選、懸停查看詳細數據,讓資料探索更加靈活有趣。

  • 互動圖表:可縮放、拖曳、篩選
  • 懸停提示:查看個別資料點資訊
  • 動態篩選:即時更新分析結果
開啟互動進階版
如何選擇適合的工具?
資料量 推薦工具 特色
< 10,000 筆 視覺化版互動進階版 豐富圖表、互動功能、直觀呈現
> 10,000 筆 本工具(統計版) 高效能、快速分析、資料品質檢測
> 100,000 筆 本工具(統計版) 強烈推薦 DuckDB 引擎專為大資料優化
為什麼本工具能處理大量資料?

DuckDB 引擎 :本工具採用 DuckDB 作為資料處理核心,這是專為分析設計的嵌入式資料庫。

  • 列式儲存:只讀取需要的欄位,大幅減少 I/O
  • 向量化運算:批次處理資料,比逐列處理快 10-100 倍
  • SQL 原生統計:直接在資料庫計算,不需載入 R 記憶體

視覺化版差異 :視覺化版使用傳統 R 套件(ggplot2、plotly)處理資料。

  • 需將全部資料載入記憶體才能繪圖
  • 每個圖表都要重新處理原始資料
  • 互動功能需要更多運算資源

10 萬筆
載入 < 2 秒
50 萬筆
載入 < 5 秒
100 萬筆
載入 < 10 秒
資料預覽(顯示前 100 筆)
這個頁面顯示什麼?

這裡呈現資料的整體樣貌,包括總共有多少筆資料、多少個欄位,以及資料的完整程度。

各欄位缺失值情況

缺失值 是指資料中空白或遺漏的部分。缺失值過多可能影響分析結果的準確性。

這個頁面顯示什麼?

資料品質分析幫助您發現資料中可能存在的問題,包括重複資料、異常值、常數欄位等,這些問題可能影響後續分析的準確性。

什麼是重複資料?

重複資料是指所有欄位的值都完全相同的資料列。重複資料可能是資料輸入錯誤或系統問題造成的。

什麼是常數欄位?

常數欄位是指整個欄位只有一個值(或全部為空)的欄位。這類欄位通常對分析沒有幫助,可以考慮移除。

什麼是異常值?

異常值是指與其他資料差異很大的數值。本工具使用「IQR 方法」偵測異常值:

  • 極端低值 :小於 Q1 - 1.5×IQR 的值
  • 極端高值 :大於 Q3 + 1.5×IQR 的值
  • IQR(四分位距)= Q3 - Q1,代表中間 50% 資料的範圍
什麼是高基數欄位?

高基數欄位是指類別欄位中有過多不同值的情況(例如超過 50% 的值都是唯一的)。這類欄位可能不適合作為分類變數使用。

什麼是數值欄位?

數值欄位包含可以進行數學運算的數字,例如:金額、年齡、數量等。這裡提供各種統計指標幫助您了解這些數字的分布情況。

什麼是分位數?

分位數將資料從小到大排序後,告訴您「有多少比例的資料小於某個值」。例如:第25百分位數為100,表示有25%的資料小於100。

如何解讀分布特徵?
  • 標準差 :數值越大,資料越分散
  • 變異係數 :標準差除以平均值,用於比較不同量級資料的分散程度
  • 偏度 :0表示對稱,正值表示右邊有極端大值,負值表示左邊有極端小值
  • 峰度 :0表示常態分布,正值表示極端值較多,負值表示較平坦
進階統計指標說明
  • 眾數 :出現最多次的值
  • MAD(平均絕對離差) :比標準差更穩健,較不受極端值影響
  • 95% 信賴區間 :我們有 95% 的信心,母體平均值落在此範圍內
  • 異常值 :使用 IQR 方法偵測的極端值數量
有效值數量
非空白、非缺失的資料筆數
缺失值數量
空白或缺失的資料筆數
缺失比例 (%)
缺失值佔總資料的百分比
不重複值數量
有多少種不同的數值
零值數量
數值為 0 的資料筆數
負值數量
數值小於 0 的資料筆數
最小值
資料中最小的數值
第1百分位數
有 1% 的資料小於此值(用於偵測極端低值)
第5百分位數
有 5% 的資料小於此值
第10百分位數
有 10% 的資料小於此值
第25百分位數 (Q1)
有 25% 的資料小於此值,又稱第一四分位數
中位數 (第50百分位數)
將資料分成兩半的中間值,50% 的資料小於此值
平均值
所有數值加總後除以總數,代表資料的「中心」
眾數 (最常出現的值)
在資料中出現次數最多的數值
眾數出現次數
眾數在資料中出現的次數
第75百分位數 (Q3)
有 75% 的資料小於此值,又稱第三四分位數
第90百分位數
有 90% 的資料小於此值
第95百分位數
有 95% 的資料小於此值
第99百分位數
有 99% 的資料小於此值(用於偵測極端高值)
最大值
資料中最大的數值
全距 (最大-最小)
最大值減最小值,代表資料的總範圍
四分位距 (Q3-Q1)
第75百分位數減第25百分位數,代表中間50%資料的範圍,用於衡量資料分散程度
標準差
衡量資料分散程度的指標,數值越大表示資料越分散
變異數
標準差的平方,也是衡量分散程度的指標
變異係數 (%)
標準差除以平均值再乘100%,用於比較不同單位資料的分散程度
標準誤 (SE)
標準差除以樣本數的平方根,用於估計平均值的精確度
平均絕對離差 (MAD)
每個數值與中位數的差距的平均值,比標準差更不受極端值影響
95%信賴區間下界
我們有95%的信心,母體平均值不低於此值
95%信賴區間上界
我們有95%的信心,母體平均值不高於此值
偏度
衡量資料分布對稱性:0=對稱,正值=右偏(有極端大值),負值=左偏(有極端小值)
峰度
衡量資料分布的「尖峭程度」:0=常態,正值=較尖峭(極端值較多),負值=較平坦
極端低值數量
低於「Q1 - 1.5×IQR」的資料筆數,可能是異常值
極端高值數量
高於「Q3 + 1.5×IQR」的資料筆數,可能是異常值
異常值總數
極端低值加極端高值的總數
異常值比例 (%)
異常值佔有效值的百分比
總和
所有數值的加總
什麼是類別欄位?

類別欄位包含分類標籤或文字,例如:性別、地區、產品類型等。這裡分析各類別的出現頻率和分布情況。

有效值數量
非空白、非缺失的資料筆數
缺失值數量
空白或缺失的資料筆數
缺失比例 (%)
缺失值佔總資料的百分比
不重複值數量
有多少種不同的類別
不重複值比例 (%)
不重複值數量除以有效值數量,比例越高表示類別越多樣
眾數 (最常出現的值)
出現次數最多的類別
眾數出現次數
眾數出現的次數
眾數佔比 (%)
眾數出現次數除以總數,比例越高表示資料越集中於某一類別
最少見的值
出現次數最少的類別
最少見值出現次數
最少見類別出現的次數
熵值 (多樣性指標)
衡量類別多樣性的指標,數值越高表示類別分布越均勻、越多樣
前5常見值
出現次數最多的前5個類別及其出現次數
什麼是相關性?

相關性衡量兩個數值欄位之間的關聯程度。

  • +0.7 到 +1.0 :強正相關(一個增加,另一個也傾向增加)
  • +0.3 到 +0.7 :中度正相關
  • -0.3 到 +0.3 :弱相關或無相關
  • -0.7 到 -0.3 :中度負相關
  • -1.0 到 -0.7 :強負相關(一個增加,另一個傾向減少)
Pearson 相關係數矩陣
匯出分析報告
報告包含內容
  • 資料概覽統計
  • 各欄位缺失值情況
  • 數值欄位完整統計
  • 類別欄位完整統計
  • 相關係數矩陣