資料預處理在什麼情況下采取哪種方法最合適

2021-03-03 22:22:11 字數 1540 閱讀 8654

1樓:匿名使用者

在資料分析之前,我們通常需要先將資料標準化(normalization),利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。

資料同趨化處理主要解決不同性質資料問題,對不同性質指標直接加總不能正確反映不同作用力的綜合結果,須先考慮改變逆指標資料性質,使所有指標對測評方案的作用力同趨化,再加總才能得出正確結果。

資料無量綱化處理主要解決資料的可比性。去除資料的單位限制,將其轉化為無量綱的純數值,便於不同單位或量級的指標能夠進行比較和加權。

資料標準化的方法有很多種,常用的有「最小—最大標準化」、「z-score標準化」和「按小數定標標準化」等。經過上述標準化處理,原始資料均轉換為無量綱化指標測評值,即各指標值都處於同一個數量級別上,可以進行綜合測評分析。

一、min-max 標準化

min-max標準化方法是對原始資料進行線性變換。設mina和maxa分別為屬性a的最小值和最大值,將a的一個原始值x通過min-max標準化對映成在區間[0,1]中的值x',其公式為:

新資料=(原資料-極小值)/(極大值-極小值)

二、z-score 標準化

這種方法基於原始資料的均值(mean)和標準差(standard deviation)進行資料的標準化。將a的原始值x使用z-score標準化到x'。

z-score標準化方法適用於屬性a的最大值和最小值未知的情況,或有超出取值範圍的離群資料的情況。

新資料=(原資料-均值)/標準差

spss預設的標準化方法就是z-score標準化。

用excel進行z-score標準化的方法:在excel中沒有現成的函式,需要自己分步計算,其實標準化的公式很簡單。

步驟如下:

1.求出各變數(指標)的算術平均值(數學期望)xi和標準差si ;

2.進行標準化處理:

zij=(xij-xi)/si

其中:zij為標準化後的變數值;xij為實際變數值。

3.將逆指標前的正負號對調。

標準化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。

三、decimal scaling小數定標標準化

這種方法通過移動資料的小數點位置來進行標準化。小數點移動多少位取決於屬性a的取值中的最大絕對值。將屬性a的原始值x使用decimal scaling標準化到x'的計算方法是:

x'=x/(10*j)

其中,j是滿足條件的最小整數。

例如 假定a的值由-986到917,a的最大絕對值為986,為使用小數定標標準化,我們用1000(即,j=3)除以每個值,這樣,-986被規範化為-0.986。

注意,標準化會對原始資料做出改變,因此需要儲存所使用的標準化方法的引數,以便對後續的資料進行統一的標準化。

除了上面提到的資料標準化外還有對數logistic模式、模糊量化模式等等:

對數logistic模式:新資料=1/(1+e^(-原資料))

模糊量化模式:新資料=1/2+1/2sin[派3.1415/(極大值-極小值)*(x-(極大值-極小值)/2) ] x為原資料

在會計中,什麼情況下需要簽名,什麼情況下需要蓋章,又在什麼情況下簽名並蓋章

原始憑證填制憑證單位名稱或者填制人姓名 經辦人員的簽名或者蓋章 接受憑證單位名稱 經濟業務內容 數量 單價和金額。從外單位取得的原始憑證,必須蓋有填制單位的公章 從個人取得的原始憑證,必須有填制人員的簽名或者蓋章。自制原始憑證必須有經辦單位領導人或者其指定的人員簽名或者蓋章。對外開出的原始憑證,必須...

電磁鐵在什麼情況下可以產生磁性?什麼情況下沒有磁性

在通電的情況下產生磁場,斷電的情況下沒有磁性 電磁鐵,從字面意義上就可以看出,在通電情況下會產生磁性,從而把物料吸起,有斷電情況下磁性消失,從而把物料卸下來。有電的情況下才會產生磁性,沒有電的情況下沒有磁性 正常情況下,高溫條件下 電流的磁效應 就是通電導線會產生磁場,會對放入磁場中的導體有作用力 ...

你在什麼情況下會考慮離職,你會在什麼情況下選擇辭職?怎麼考慮的?

自己的上司對自己有不好的想法的時候,感覺這個公司阻礙了對自己的發展的時候,對自己的工作不滿意或者不熱情的時候,與同事關係不好處的時候。如果我對這份工作沒有任何的興趣了,我可能會考慮離職,如果我對一份工作沒有興趣,那麼我就沒有做下去的動力了,我就會覺得非常的傷心。只有當自己瘦了非常多的委屈,他們自己付...