分類彙整: Collecting data

爬蟲 Crawler

有些時候我們想要分析的資料並沒有被整理成一份可供下載的資料集,而是分散在某個網站的許多頁面上,如果人工複製貼上又會是一個麻煩的工作,這時候我們就可以利用所謂的爬蟲技術來協助我們抓取網路上的資源。

爬蟲基礎

公開資料平台 Open data

對於資料分析的初學者而言,我們通常會建議從簡單整齊的資料開始練習,例如 R 內建的許多資料集(e.g. iris, mtcars, diamonds)。在充分的練習各種操作資料的函式後,下一步可以從一些公開的資料平台挑選感興趣的資料,探索這些更貼近生活的資料集。

以下是一些我們推薦的公開資料平台:

  • Kaggle
    • 大量有趣且多樣化的數據資料,也會不定時舉辦資料分析競賽(難度較高),建議有想鑽研資料分析的同學可以多多探索。
  • 政府資料開放平台
    • 政府的資料開放平台,可以找到許多更貼近生活的資料(e.g. 捷運每日各站進出人數、歷年各監測站空氣汙染指標)
    • 資料格式有些雜亂,要根據不同資料內容額外做處理
  • 臺北市政府資料開放平台
    • 同政府資料開放平台