支援 10 萬筆以上資料 • 完整中文介面 • 詳細術語說明 • 一鍵產生報告
快速了解資料大小、欄位類型、缺失值情況
檢測重複資料、異常值、常數欄位等問題
平均、中位數、分位數、偏度、峰度等 30+ 指標
眾數、熵值、類別分布、前 N 常見值
Pearson 相關係數矩陣,了解變數間關聯
一鍵匯出 HTML 格式的完整分析報告
包含完整的圖表分析功能:直方圖、箱型圖、散佈圖、相關性熱圖等視覺化工具,幫助您更直觀地理解資料分布與關係。
除了視覺化功能外,更提供互動式圖表,可縮放、篩選、懸停查看詳細數據,讓資料探索更加靈活有趣。
| 資料量 | 推薦工具 | 特色 |
|---|---|---|
| < 10,000 筆 | 視覺化版 或 互動進階版 | 豐富圖表、互動功能、直觀呈現 |
| > 10,000 筆 | 本工具(統計版) | 高效能、快速分析、資料品質檢測 |
| > 100,000 筆 | 本工具(統計版) 強烈推薦 | DuckDB 引擎專為大資料優化 |
DuckDB 引擎 :本工具採用 DuckDB 作為資料處理核心,這是專為分析設計的嵌入式資料庫。
視覺化版差異 :視覺化版使用傳統 R 套件(ggplot2、plotly)處理資料。
這裡呈現資料的整體樣貌,包括總共有多少筆資料、多少個欄位,以及資料的完整程度。
缺失值 是指資料中空白或遺漏的部分。缺失值過多可能影響分析結果的準確性。
資料品質分析幫助您發現資料中可能存在的問題,包括重複資料、異常值、常數欄位等,這些問題可能影響後續分析的準確性。
重複資料是指所有欄位的值都完全相同的資料列。重複資料可能是資料輸入錯誤或系統問題造成的。
常數欄位是指整個欄位只有一個值(或全部為空)的欄位。這類欄位通常對分析沒有幫助,可以考慮移除。
異常值是指與其他資料差異很大的數值。本工具使用「IQR 方法」偵測異常值:
高基數欄位是指類別欄位中有過多不同值的情況(例如超過 50% 的值都是唯一的)。這類欄位可能不適合作為分類變數使用。
數值欄位包含可以進行數學運算的數字,例如:金額、年齡、數量等。這裡提供各種統計指標幫助您了解這些數字的分布情況。
分位數將資料從小到大排序後,告訴您「有多少比例的資料小於某個值」。例如:第25百分位數為100,表示有25%的資料小於100。
類別欄位包含分類標籤或文字,例如:性別、地區、產品類型等。這裡分析各類別的出現頻率和分布情況。
相關性衡量兩個數值欄位之間的關聯程度。