文本分析的目的是要從文章中擷取我們想要的資訊,而第一步我們需要把有意義的詞(term)挑出來。
斷詞
詞(term)是最小有意義的語言單位,文本分析的第一步就是斷詞,然後再做其他進一步的分析,如文字雲、情緒分析等等。如果是英文的文本,可以很簡單的用空格把每個 term 分開:

但是如果是中文,斷詞就是一門很大的學問了。像是「乒乓球拍賣完了」可能會被斷成 「乒乓/球拍/賣/完/了」或是 「乒乓球/拍賣/完/了」,這稱為中文斷詞的歧異性,兩種斷法都是合法的。幸好已經有很成熟的中文斷詞套件可以用,而且斷出來的結果也很棒,像是 jieba(如果是 R 可以用 jiebaR 這個套件):

有了這個工具,給我們任意文章,我們都可以把文章變成斷好的詞:


其中我們發現有很多我們不想要的東西,這邊可以暫時忽略不管。
詞頻
接下來我們要從這些已經斷好的詞,獲得一些有關文本的資訊。最直覺的事情就是「哪些詞是重要的詞」?這個問題可能可以透過統計每個字出現的次數來獲得解答:

恩…最好排序一下

我們可以發現,出現最多次的是標點符號、的、\n 等等不重要的東西。
這是直接從斷詞結果算次數的缺點,因為一篇文章中最常出現的前幾個「詞」通常不是那篇文章要提到的重點,而是一些「所有中文文章都會用到的東西」,像是你、我、的…或是標點符號。
不過至少我們可以花點時間往下看,就會發現「韓國瑜」、 「發大財」這種可以代表這篇文章的重點的詞。
Note: 標題是寫詞頻 term frequency,所以大家也可以把 count 出來的出現次數除以總詞數,反正兩者在只有一篇文章的情況下代表的是一樣的事情。