廣告贊助

蘇彥斌

 

Event counts data有兩個問題:

 

第一個是event 另外一個是counts

**COUNTS: 一定是正整數或0

例如:家庭人數、新生兒人數、該醫院當年度死亡人數、議會通過法案數、公務員數量、非營利組織數量、等

**events:

多少次、持續多久(survival models 來檢驗,存活分析。又可以被稱作event history analysis, duration models, hazard models, failure-time models. 例如內戰持續的時間、該藥物副作用持續時間、罕見疾病兒童生存年限)

 

 

Q: count data?

為什麼這個不能用回歸呢?

可能原因:

y會有自我相關??

落差太大,例如有些國家根本就沒有恐怖攻擊,但有些國家有很多

 

之所以不能用線性回歸的原因是?

  1. 1.      會有負的預期值
  2. 2.      Heteroskedastic nature of event counts: 會跟著平均值而改變變異數à違背線性回歸的假設:變異數固定
  3. 3.      結果會有bias

 

那該怎麼辦呢?

  1. 1.      改變count dataàlog-linear function

Logged ordinary least square method(LOLS)

目的是降低變異數的增加、建立xy之間的線性相關                

 

我們並不曉得我們應該要放甚麼 所以我們就試試看

+ln

  1. 2.      Poisson regression models(PPM)

呈現poisson 分配

變異數與平均值相等

Stata 指令: poisson V1 V2 V3 

我們不能夠直接分析資料,因為COUNT DATA的本質不能夠這樣說明

à?????但是老師還是跑出個二元一次方程式出來==

Why??

何謂不能直接分析??

放入一個數字 然後將其他自變數都設成平均數< 就可以獲得結果

We have to take the exponential of 1.6, and we get the predicated count of the result

à並非是相當精確得到你期望值的作法

 

 

指令: listcoef

或是listcoef, help

該指令(the factor change in the rate)是將其他變數都設定為常數(constant)  控制其他變數à變異數會增加

à ef  這個當作公式的係數

 

或是可以看百分比的改變  指令: listcoef, percent help

1%x的改變會使得y也改變%

 

*檢定:

當樣本太過分散(例如呈現兩邊很多的情形)over-dispersed

  1. 1.      PRM 做穩健分析
  2. 2.      負二項

這時候就要做負二項(negative binomial models, NBRM)

 

 

V(yi)=(1+a)Mi

甚麼事A?? the nuisance parameter, a=0

如果a比較大,採負二項

a很小時,possion分布和NBRM分布幾乎一樣

但是當a太大時,NBRM分布會比較合理

 

**”當變異數比平均數大太多時,該資料可能會太過分散了

但這個判准並不準確!

Assumption of equality applies to the conditional mean and variance, conditioning on the predictors.

**所以應該是直接用NBRM

先檢驗假設  Ho: a=0

Stata可以跑LR test (likelihood ratio test of alpha)

 

 

Zero-inflated count models

當有很多個案是0的話,應該要用這個模型

  1. 1.      Always zero  例如: 有些國家完全沒有抗議事件發生,可能跟國家的本質有關,像是人口很少很少的國家、文化因素(大家非常平和、不喜歡抗議之類的)àstructural zeros, sampling zero.
  2. 2.      Not always zero 這可能跟你研究的時間點有關(可能這個國家在前十年還是有很多抗議事件的) 例如:

Each case has a positive

 

Zero-inflated poisson model(ZINB)

包括上面兩種狀況(後者,a negative binominal model that predicts the expected number of protests, including 0)

如何解讀這個模型:

  1. 1.      /負係數
  2. 2.      如果在inflation stage,呈現正係數,表示這個變數提高了該國家從未經歷過抗議事件的可能性(likelihood)

當然是有可能,該變數在每一個ZINB階段中都有相同的signPevehouse(2004)貿易互賴會提高國際爭端的機率,但是會限制衝突的次數

 

**所以我們要如何知道這對於我們現有的資料是否是一個合適的模型呢?

Vuong option

Zip option

指令: zinb Y X1 X2 X3 , inflate (X1 X2 X3) vuong zip

**但是可以因為你的理論,你可以放不同的自變數在inflation stage

 

所以當x的係數為負的,所以就是說當該國家人口越多時,該國家從未經歷過抗爭的可能性越低à雙重否定à簡言之,當國家人口越多時,該國家經歷過抗爭的可能性越高

 

問題是我們是否真的需要運用這個模型呢?(我們可以直接用Standard Bionominal model就好啦)

Paul Allison 認為這是沒有必要的: 因為這個模型並不會告訴你那些0是因為結構或是選樣問題,這些還是必須基於理論基礎來決定的。

à用這個模型,我們必須要先解釋這兩個假設(postulate),為何你覺得會出現這兩種0

 

Hurdle model: 適用於0的來源只有一種時,例如結構性的0

àthe structural zeros in our data implies that countries that never experience protests, and the sampling zeros in our data implies that countries in which the number of protests has a Poisson distribution or negative binomial distribution

Ex: 你媽媽給你100元買東西,你一定要買東西回來,即便只有買張一元電話卡

à有兩種model:

  1.       Hnblogit
  2.        

 

我們要先思考資料的本質:

例如: 該國家只有一間新聞報社,它們可以決定是否要報導該新聞

指令: churdle

 

Y之所以會有自我相關,是因為某些狀況,例如這一期和前一期的GDP有相關、或是前一期和現在這一期的福利補助。

 

*不保證筆記正確性

                                                                                                                                                                    

文章標籤
創作者介紹
創作者 Douceline 的頭像
Douceline

小國民眾思維

Douceline 發表在 痞客邦 留言(0) 人氣()