樓主: GraphPad_China
318 0

統計學常識|關于異常值(Outlier)的一些理解 [分享]

  • 0關注
  • 1粉絲

本科生

47%

還不是VIP/貴賓

-

威望
0
論壇幣
138 個
通用積分
0.0370
學術水平
0 點
熱心指數
0 點
信用等級
0 點
經驗
665 點
帖子
30
精華
0
在線時間
92 小時
注冊時間
2020-4-26
最后登錄
2020-9-7

樓主
GraphPad_China 在職認證  發表于 2020-8-28 11:36:23 |只看作者 |倒序
    在我們分析數據時,有時會發現一個值與其他值相差甚遠。這類值稱為 “異常值”,通常來說這個術語沒有嚴格定義。在Prism的非線性回歸中,異常值是遠離穩健回歸定義的最佳擬合曲線的點。


01 為什么會產生異常值?你需要先思考…
    當你遇到異常值時,先不要急著把它從分析中刪掉?梢韵葒L試問自己如下↓問題:
1)輸入到計算機的值是否正確?如果是數據輸入有誤,先修正;
2)試驗是否存在問題?比如,如果你注意到一根試管中的樣本看起來很有趣,你可以用它作為排除該試管中樣本所產生的值的理由,而無需執行任何計算;

3)是否由生物多樣性引起的?如果每個值是來自不同的人或動物,那么異常值的存在可能是正確的。這類異常值,不是因為試驗錯誤,而是因為那個人的操作可能與其他人不同。這或許是你數據中最令人興奮的發現!


    如果你對以上三個問題的回答均為“否”,那么還有兩種可能:
4)異常值是由于偶然因素造成的。在此情況下,你應在分析中保留該值。該值與其他值來自相同的分布,因此應包括在內;
5)異常值是因為一個錯誤造成的。如錯誤的移液、電壓尖峰、過濾器中的孔洞等。由于在分析中包含錯誤值會使結果無效,此時是需要刪除的。也就是說,該值來自于不同于其他值的群體,并且具有誤導性。

當然,問題是你永遠不能確定這些可能性中哪一個是正確的。


02 異常值并非總是“壞”點
    非線性回歸通?膳c實驗數據一起使用,其中,X為變量(例如,時間或濃度)或在實驗中調整的某些其他變量。由于所有分散都是由實驗誤差造成,而且我們幾乎確定這由實驗誤差造成,所以,剔除所有極端異常值很有意義的。
    在其他情況下,每個數據點均可表示不同的個體。在此情況下,異常值可能不是由實驗錯誤造成,而是由生物變異引起的,或者是模型中未包含的其他變量的差異。此時,異常值的存在可能成為研究中最有意義的發現。盡管在此情況下,ROUT異常值方法標記異常值可能很重要,但是在未深入思考(或進行實驗)就自動排除這些異常值的情況下,就是大錯特錯了。

    在質量控制分析中,異常值可告訴你失控的過程。在未先了解該數值遠離其他數值的原因時,不得刪除異常值,異常值可能告訴你某些重要的信息。


03 何時需要剔除異常值?
    像線性回歸一樣,非線性回歸假設理想曲線周圍的數據分散遵循高斯或正態分布。異常值可能違反了這一假設,并使非線性回歸結果無效。為處理異常值,Prism提供了自動異常值剔除功能:


?何時可以使用自動異常值剔除功能
    我們在做實驗的時候難免會出現錯誤,這時可能會導致錯誤的值產生--異常值。即使是單個異常值也可能影響平方和計算,并導致誤導性的結果。有些同學可能會認為隨意剔除異常值是作假行為。其實那種通過特殊方式剔除“異常值” ,特別是只剔除妨礙獲得想要結果的異常值時,才是作假行為。另外,留下以供分析的數據中的異常值也是一種作假,因為它可能會產生無效結果。


?何時不建議使用自動異常值剔除功能
1. 擬合錯誤模型時,異常值消除會產生誤導;
2. 數據點不獨立時,剔除異常值會產生誤導;
3. 所選加權因子不正確時,剔除異常值會產生誤導;


04 Prism如何助你快速處理異常值?

    在數據分析的過程中,我們需要首先識別異常值,然后判斷異常值是否需要剔除。GraphPad Prism的穩健回歸和ROUT法可以幫助快速處理異常值。官方中文用戶指南有詳細介紹,大家可以去看看。



科研統計繪圖工具,助你發現數據
您需要登錄后才可以回帖 登錄 | 我要注冊

京ICP備16021002-2號 京B2-20170662號 京公網安備 11010802022788號 論壇法律顧問:王進律師 知識產權保護聲明   免責及隱私聲明

GMT+8, 2020-9-8 03:40
亚洲综合偷拍区偷拍_亚洲欧美日韩综合影院_久久亚洲道色综合久久