政治角力 - 新舊媒體猜一猜

AUTHOR

語言分析語資料科學 Group1

徐瑞陽
鍾豪
李佳臻
陳家葦

Topic

分析新媒體與傳統媒體之間的文本差異

MOTIVATION

近幾年公民參政勢力明顯增加，新型態的媒體也隨這波公民參政的力量而出現。

我們想要比較傳統的主流媒體，在「立場」、「用詞」、「新聞產生來源(專業記者or公民記者)」、「文風」上與新型態的媒體的差異。

例如：我們認為新媒體傾向即時性發佈新聞於網路平台、在用詞上較為新穎且直接、撰寫角度頃向以公民利益為基礎，可能因此產生了了不同於舊媒體的事件描述角度及立場，我們想藉由這個計畫實驗是否結果與假設相符，進而藉由立場差異自動偵測新舊媒體政治文本。

DEFINITIONS

新媒體 : 自2013年7月洪仲丘事件後開始受到關注的媒體。
```
  如: 風傳媒、新頭殼、民報、Nownews…etc
```

舊媒體 : 傳統媒體

  如：自由、中時、蘋果、聯合…etc

HYPOTHESIS

	舊媒體	新媒體
媒體	蘋果、自由、中時	風傳媒、新頭殼、民報
平台	報紙	網路
發布頻率	定期	即時
記者	專業記者	公民記者
立場	較親某黨派或某事件主角	較中性，以「看故事發展」角度撰寫
語言	用語較制式較摘要性事件描述	似流水帳，多事件細節（人物情緒描述）新用語較多

HYPOTHESIS EXAMPLES

根據特定事件（蔡英文回應媒體追問她是否有炒地皮一事）觀察新、舊媒體的文本。

文本顯示新媒體傾向以流水帳方式撰寫,並多描述事件場景中主角當時的情緒或行為。而舊媒體則是簡短摘要事件主角針對議題的回應。

新頭殼
風傳媒
中時
蘋果

DATA SOURCE

網路爬蟲由第八組羅偉航同學熱心協助抓取六大媒體網路新聞文章.
來源
- 新媒體 : 風傳媒、民報、新頭殼
- 舊媒體 : 自由、中時、蘋果
語料蒐集時間及數量自2015.12.29 前收集風傳媒、新頭殼、民報、自由、中時、蘋果等六大家媒體，各一千篇，共六千篇政治新聞文本。
DATA　PREPROCESSING
前處理清除 noise、 stopwords，與文風無關用字。如：相關報導、即時新聞、記者的名字。
斷詞 ( using jiebaR )
詞頻探索並製圖

EXPLORATORY DATA

各家媒體對各政黨候選人的提及次數

舊媒體中我們發現特定兩政黨被提及次數遠多於第三個政黨。
對於副手的提及次數相對都較少，讓我們聯想到是否有偶像化特定人物。
提及各政黨或副手的次數都較新媒體少。

新媒體中我們看到正、副手被提及的次數高出許多，如「王如玄」，我們就會聯想到新媒體可能較不偏重特定人物，反而事件的發燒程度與人物被提及次數成正比。
新媒體中我們也發現「民報」的平均字數較多，但是提及個政黨或人物卻沒有比較多。

綜合以上，我們可以發現利用詞頻(word frequency)能達成區分新舊媒體的目標。

CLASSIFICATION ALGORITHM

我們使用兩種方式來建立分類模型(by scikit-learn)

建立6000篇新聞的 document-term matrix $$M{dt}$$ , where $$ M{dt} \in M_{6000\times60321}$$
對 $M_{dt}$$ 中每一個feature做tf-idf indexing，考慮其在語料及在文本中適當的權值。
因$$M{dt}$$的維度太大，無法考慮詞與詞之間的關係，所以我們利用主成份分析(Principal Component Analysis)將 $$M{dt}$$ 降維( $$M{dt} \in M{6000\times1000}$$ )，而此時這 $1000$ 維的向量，代表了原先文本中某些詞的distribution，考慮了詞與詞之間的互動。

利用 $M_{dt}$ 訓練一個linear kernel的 SVM 二元分類器

tr_corpus , tr_labs = loadData()
M_dt = BOWtransform(stopwords='chinese')
M_dt = PCA(M_dt,n_components=1000)
svm_model = svm_train(tr_labs,M_dt,'linear')
svm_save_model(svm_model)

validation accuracy : 86.3% :+1:
DIFFICUITY WE ENCOUNTERED
我們有嘗試使用non-linear的SVM kernel(e.g RBF)，去考慮詞與詞之間的互動，而不是直接降維，但實驗的結果，過度擬合的情形很嚴重。
Repository
https://github.com/sunprinceS/TaiwanNews_classifier