1樓:諾爵
多元統計分析是從經典統計學中發展起來的一個分支,是一種綜合分析方法,它能夠在多個物件和對個指標互相關聯的情況下分析它們的統計規律,很適合農業科學研究的特點。主要內容包括多元正態分佈及其抽樣分佈、多元正態總體的均值向量和協方差陣的假設檢驗、多元方差分析、直線迴歸與相關、多元線性迴歸與相關(ⅰ)和(ⅱ)、主成分分析與因子分析、判別分析與聚類分析、shannon資訊量及其應用。簡稱多元分析。
當總體的分佈是多維(多元)概率分佈時,處理該總體的數理統計理論和方法。數理統計學中的一個重要的分支學科
統計分析是指運用統計方法及與分析物件有關的知識,從定量與定性的結合上進行的研究活動。它是繼統計設計、統計調查、統計整理之後的一項十分重要的工作,是在前幾個階段工作的基礎上通過分析從而達到對研究物件更為深刻的認識。它又是在一定的選題下,集分析方案的設計、資料的蒐集和整理而的研究活動。
系統、完善的資料是統計分析的必要條件
多元統計分析的簡介
2樓:小2b4蚲
multivariate statistical analysis
研究客觀事物中多個變數(或多個因素)之間相互依賴的統計規律性。它的重要基礎之一是多元正態分析。又稱多元分析 。
如果每個個體有多個觀測資料,或者從數學上說, 如果個體的觀測資料能表為 p維歐幾里得空間的點,那麼這樣的資料叫做多後設資料,而分析多後設資料的統計方法就叫做多元統計分析 。 它是數理統計學中的一個重要的分支學科。20世紀30年代,r.
a.費希爾,h.霍特林,許寶碌以及s.
n.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到迅速發展。50年代中期,隨著電子計算機的發展和普及 ,多元統計分析在地質 、氣象、生物、醫學、影象處理、經濟分析等許多領域得到了廣泛的應用 ,同時也促進了理論的發展。
各種統計軟體包如sas,spss等,使實際工作者利用多元統計分析方法解決實際問題更簡單方便。重要的多元統計分析方法有:多重回歸分析(簡稱迴歸分析)、判別分析、聚類分析、主成分分析、對應分析、因子分析、典型相關分析、多元方差分析等。
早在19世紀就出現了處理二維正態總體(見正態分佈)的一些方法,但系統地處理多維概率分佈總體的統計分析問題,則開始於20世紀。人們常把2023年維夏特分佈的匯出作為多元分析成為一個獨立學科的標誌。20世紀30年代,r.
a.費希爾、h.霍特林、許寶祿以及s.
n.羅伊等人作出了一系列奠基性的工作,使多元統計分析在理論上得到了迅速的進展。40年代,多元分析在心理、教育、生物等方面獲得了一些應用。
由於應用時常需要大量的計算,加上第二次世界大戰的影響,使其發展停滯了相當長的時間。50年代中期,隨著電子計算機的發展和普及,它在地質、氣象、標準化、生物、影象處理、經濟分析等許多領域得到了廣泛的應用,也促進了理論的發展。
多元分析發展的初期,主要討論如何把一元正態總體的統計理論和方法推廣到多元正態總體。多元正態總體的分佈由兩組引數,即均值向量μ(見數學期望)和協方差矩陣(簡稱協差陣)∑ (見矩)所決定,記為np(μ,∑)(p為分佈的維數,故又稱p維正態分佈或p 維正態總體)。設x1,x2,…,xn為來自正態總體np(μ,∑)的樣本,則μ和∑的無偏估計(見點估計)分別是
和分別稱之為樣本均值向量和樣本協差陣,它們是在各種多元分析問題中常用的統計量。樣本相關陣r 也是一個重要的統計量,它的元素為
其中υij為樣本協差陣s的元素。s的分佈是維夏特分佈,它是一元統計中的ⅹ2分佈的推廣。
另一典型問題是:假定兩個多維正態分佈協差陣相同,檢驗其均值向量是否相同。設樣本x1,x2,…,xn抽自正態總體np(μ1,∑),而y1,y2,…,ym抽自np(μ2,∑),要檢驗假設h 0:
μ1=μ2(見假設檢驗)。在一元統計中使用t統計量(見統計量)作檢驗;在多元分析中則用t2統計量,
,其中,,·
,t2的分佈稱為t2分佈。這是h.霍特林在2023年提出來的。
在上述問題中的多元與一元相應的統計量是類似的,但並非都是如此。例如,要檢驗k個正態總體的均值是否相等,在一元統計中是導致f統計量,但在多元分析中可匯出許多統計量,最著名的有威爾克斯λ統計量和最大相對特徵根統計量。研究這些統計量的精確分佈和優良性是近幾十年來多元統計分析的重要理論課題。
多元統計分析有狹義與廣義之分,當假定總體分佈是多元正態分佈時,稱為狹義的,否則稱為廣義的。近年來,狹義多元分析的許多內容已被推廣到更廣的分佈之中,特別是推廣到一種稱為橢球等高分佈族之中。
按多元分析所處理的實際問題的性質分類,重要的有如下幾種。 簡稱迴歸分析。其特點是同時處理多個因變數。
迴歸係數和常數的計算公式與通常的情況相仿,只是由於因變數不止一個,原來的每個迴歸係數在此都成為一個向量。因此,關於迴歸係數的檢驗要用t2統計量;對迴歸方程的顯著性檢驗要用λ統計量。
迴歸分析在地質勘探的應用中發展了一種特殊的形式,稱為趨勢面分析,它以各種元素的含量作為因變數,把它們對地理座標進行迴歸(選用一次、二次或高次的多項式),迴歸方程稱為趨勢面,反映了含量的趨勢。殘差分析是趨勢面分析的重點,找出正的殘差異常大的點,在這些點附近,元素的含量特別高,這就有可能形成可採的礦位。這一方法在其他領域也有應用。
由 k個不同總體的樣本來構造判別函式,利用它來決定新的未知類別的樣品屬於哪一類,這是判別分析所處理的問題。它在醫療診斷、天氣預報、影象識別等方面有廣泛的應用。例如,為了判斷某人是否有心臟病,從健康的人和有心臟病的人這兩個總體中分別抽取樣本,對每人各測兩個指標x1和x2,點繪如圖 。
可用直線a將平面分成g1和g2兩部分,落在g1的絕大部分為健康者,落在g2的絕大部分為心臟病人,利用a的垂線方向l=(l1,l2)來建立判別函式
y=l1x1+l2x2,可以求得一常數с,使 y<с 等價於(x1,x2)落在g1,y>с等價於(x1,x2)落在g2。由此得判別規則:若,l1x1+l2x2c
判,即此人為心臟病人;若,l1x1+l2x2=c則為待判。此例的判別函式是線性函式,它簡單方便,在實際問題中經常使用。但有時也用非線性判別函式,特別是二次判別函式。
建立判別函式和判別規則有不少準則和方法,常用的有貝葉斯準則、費希爾準則、距離判別、迴歸方法和非引數方法等。
無論用哪一種準則或方法所建立的判別函式和判別規則,都可能產生錯判,錯判所佔的比率用錯判概率來度量。當總體間區別明顯時,錯判概率較小;否則錯判概率較大。判別函式的選擇直接影響到錯判概率,故錯判概率可用來比較不同方法的優劣。
變數(如上例中的x1和x2)選擇的好壞是使用判別分析的最重要的問題,常用逐步判別的方法來篩選出一些確有判別作用的變數。利用序貫分析的思想又產生了序貫判別分析。例如醫生在診斷時,先確定是否有病,然後確定是哪個系統有病,再確定是什麼性質的病等等。
又稱數值分類。聚類分析和判別分析的區別在於,判別分析是已知有多少類和樣本來自哪一類,需要判別新抽取的樣本是來自哪一類;而聚類分析則既不知有幾類,也不知樣本中每一個來自哪一類。例如,為了制定服裝標準,對 n個成年人,測量每人的身高(x1)、胸圍(x2)、肩寬(x3)、上體長(x4)、手臂長(x5)、前胸(x6)、後背(x7)、腰圍(x8)、臀圍(x9)、**長(x10)等部位,要將這n個人進行分類,每一類代表一個號型;為了使用和裁剪的方便,還要對這些變數(x1,x2,…,x10)進行分類。
聚類分析就是解決上述兩種分類問題。
設已知n個觀測值x1,x2,…,xn,每個觀測值是一個p維向量(如上例中人的身高、胸圍等)。聚類分析的思想是將每個觀測值xi看成p維空間的一個點,在p維空間中引入「距離」的概念,則可按各點間距離的遠近將各點(觀測值)歸類。若要對 p個變數(即指標)進行分類,常定義一種「相似係數」來衡量變數之間的親密程度,按各變數之間相似係數的大小可將變數進行分類。
根據實際問題的需要和變數的型別,對距離和相似係數有不同的定義方法。
按距離或相似係數分類,有下列方法。①凝聚法:它是先將每個觀察值看成一類,逐步歸併,直至全部觀測值併成一類為止,然後將上述並類過程畫成一聚類圖(或稱譜系圖),利用這個圖可方便地得到分類。
②分解法:它是先將全部觀測值看成一類,然後逐步將它們分解為2類、3類、…、n類,它是凝聚法的逆過程。③動態聚類法:
它是將觀測值先粗糙地分類,然後按適當的目標函式和規定的程式逐步調整,直至不能再調為止。
若觀察值x1,x2,…,xn之間的次序在分類時不允許打亂,則稱為有序分類。例如在地質學中將地層進行分類,只能將互相鄰接的地層分成一類,不能打亂上下的次序。用於這一類問題中的重要方法是費希爾於2023年提出的最優分割法。
聚類分析也能用於預報洪水、暴雨、**等災害性問題,其效果比其他統計方法好。但它在理論上還很薄弱,因為它不象其他方法那樣有確切的數學模型。 又稱主分量分析,是將多個變數通過線性變換以選出較少個數重要變數的一種方法。
設原來有p個變數x1,x2,…,xp,為了簡化問題,選一個新變數z,
,要求z儘可能多地反映p個變數的資訊,以此來選擇l1,l2,…,lp,當l1,l2,…,lp選定後,稱z為x1,x2,…,xp的主成分(或主分量)。有時僅一個主成分不足以代表原來的p個變數,可用q(
的約束下,選擇l1,l2,…,lp使z的方差達到最大。
在根據樣本進行主成分分析時又可分為r型分析與q型分析。前者是用樣本協差陣(或相關陣)的特徵向量作為線性函式的係數來求主成分;後者是由樣品之間的內積組成的內積陣來進行類似的處理,其目的是尋找出有代表性的「典型」樣品,這種方法在地質結構的分析中常使用。 它是由樣本的資料將一組變數
y2,……yp)
分解為一些公共因子f與特殊因子s的線性組合,即有常數矩陣a使у=af+s。公共因子f 的客觀內容有時是明確的,如在心理研究中,根據學生的測驗成績(指標)來分析他的反應快慢、理解深淺(公共因子);有時則是不明確的。為了尋求易於解釋的公共因子,往往對因子軸進行旋轉,旋轉的方法有正交旋轉,斜旋轉,極大變差旋轉等。
從樣本協差陣或相關陣求公共因子的方法有廣義最小二乘法、最大似然法與不加權的最小二乘法等。通常在應用中,最方便的是直接利用主成分分析所得的頭幾個主成分,它們往往是對各個指標影響都比較大的公共因子。 它是尋求兩組變數各自的線性函式中相關係數達到最大值的一對,這稱為第一對典型變數,還可以求第二對,第三對,等等,這些成對的變數,彼此是不相關的。
各對的相關係數稱為典型相關係數。通過這些典型變數所代表的實際含意,可以找到這兩組變數間的一些內在聯絡。典型相關分析雖然30年代已經出現,但至今未能廣泛應用。
上述的各種方法可以看成廣義多元分析的內容,在有些方法中,如加上正態性的假定,就可以討論一些更深入的問題,例如線性模型中有關線性假設檢驗的問題,在正態的假定下,就有比較系統的結果。 多元分析也可按指標是離散的還是連續的來區分,離散值的多元分析實質上與列聯表分析有很大部分是類似的,甚至是一樣的。
非數量指標數量化的理論和方法也是廣義多元分析的一個重要的研究課題。
emsa結果灰度值怎樣統計分析
讓計算機進行來 投機分享 如果源你對這個答案有什麼疑問,請追問,另外如果你覺得我的回答對你有所幫助,請千萬別忘記採納喲!什麼是高階程式語言,什麼又是低階程式語言 你說的這幾個都是高階語言!高階語言不能讓cpu直接識別!只有通過編譯程式,轉換成cpu二進位制操作碼,才能讓cpu識別!而低階語言也分好多...
統計分析中的因子分析 factors ,如何確定因子的個數
如果使用spssau軟體會預設以特徵根值大於1作為標準。如果有預期維度,比如20個量表題項分成幾個方面問題,則在分析前設定輸出維度 因子 個數。spssau 因子 因子分析中因子數目的判定 除了經驗判斷外,特徵值法是選用較多的判斷方法。因子對應的特徵值就是因子所能解釋的方差大小,而由於標準化變數的方...
多元統計分析中協方差矩陣的性質證明,注意是多元統計,不是一元
根據協方差矩陣的定義及向量期望的性質可以如圖證明這個等式成立。多元統計分析的簡介 多元統計分析與統計分析的區別是什麼?差不多嗎?多元統計分析是從經典統計學中發展起來的一個分支,是一種綜合分析方法,它能夠在多個物件和對個指標互相關聯的情況下分析它們的統計規律,很適合農業科學研究的特點。主要內容包括多元...