分類彙整: Data manipulation

資料整理 Data manipulation

原生資料 (raw data) 通常沒辦法拿來直接做資料分析,必須經過資料清洗 (data cleaning) 和整理,使資料的結構更適合做下一步動作,如資料分析 (data analysis) / 資料視覺化 (data visualization)。

在資料分析之前…

資料分析流程:

  • data manipulation
  • data visualization
  • statistical analysis / modeling
  • deployment

data manipulation 是第一步,根據前輩們的經驗,這個步驟通常花上整個分析過程 80% 的時間。想要做好的資料分析師,整理數據的能力是不可或缺的。

一般而言我們會先將要分析的資料整理成資料框的資料型態,再進一步利用行列間的操作來整理資料。同時,資料框也是相當適合用來視覺化和分析的資料型態。

Data Manipulation in R