原生資料 (raw data) 通常沒辦法拿來直接做資料分析,必須經過資料清洗 (data cleaning) 和整理,使資料的結構更適合做下一步動作,如資料分析 (data analysis) / 資料視覺化 (data visualization)。
在資料分析之前…
資料分析流程:
- data manipulation
- data visualization
- statistical analysis / modeling
- deployment
data manipulation 是第一步,根據前輩們的經驗,這個步驟通常花上整個分析過程 80% 的時間。想要做好的資料分析師,整理數據的能力是不可或缺的。
一般而言我們會先將要分析的資料整理成資料框的資料型態,再進一步利用行列間的操作來整理資料。同時,資料框也是相當適合用來視覺化和分析的資料型態。