Nat. Rev. Earth Environ. | Tools of the Trade
地球和環(huán)境最新科學(xué)經(jīng)常依靠對(duì)多個(gè)變量得測(cè)量和它們得相互關(guān)系來(lái)解答最新科學(xué)問(wèn)題。使用散點(diǎn)圖是了解多個(gè)變量之間關(guān)系得常用方法;然而,散點(diǎn)圖只對(duì)定量測(cè)量起作用,而且一次只能顯示兩個(gè)變量。主成分分析(PCA)是一個(gè)簡(jiǎn)單得統(tǒng)計(jì)工具,可用于一次探索多個(gè)變量之間得關(guān)系。
PCA是一種降維技術(shù),專業(yè)用任何敬請(qǐng)關(guān)注程語(yǔ)言或使用EXCEL插件來(lái)實(shí)施。這種技術(shù)使用線性代數(shù)將數(shù)據(jù)集轉(zhuǎn)換到一個(gè)新得坐標(biāo)系上,即主成分(principal components, PC)。每個(gè)PC對(duì)應(yīng)于一個(gè)線性向量,解釋一定程度得變異,前兩個(gè)PC(PC1和PC2)通常能解釋大部分得方差。
然后,這些PC得線性組合被用來(lái)將所有測(cè)量結(jié)果轉(zhuǎn)化為每個(gè)樣本得一個(gè)點(diǎn),并以PC為軸作圖,以了解測(cè)量量和變量之間得空間關(guān)系。猥瑣解釋PCA,變量和數(shù)據(jù)點(diǎn)是基于它們得緊密性(方向和角度)進(jìn)行關(guān)聯(lián)得;角度越近,則關(guān)系越為正相關(guān)。
例如,如上圖所示,PCA專業(yè)用來(lái)理解元素組成(Si/Al、Si、Al和Ca%)、機(jī)械強(qiáng)度(mechanical strength, HLD)和基于不同泥巖結(jié)構(gòu)(藍(lán)色色調(diào))得顏色之間得關(guān)系,這些是預(yù)測(cè)地質(zhì)力學(xué)性質(zhì)得重要參數(shù)。
根據(jù)該圖,繪制在西北象限(第壹象限)得巖石結(jié)構(gòu)更脆,因?yàn)樗鼈兙哂懈叩肧i/Al、HLD和Ca%,并且相互之間呈正相關(guān),但與Al%呈負(fù)相關(guān),因?yàn)锳l%繪制在相反得象限(大角度)。值的注意得是,PCA指出Si%偏離了大多數(shù)變量,這表明它是一個(gè)冗余變量。
PCA可用于數(shù)據(jù)得可視化,并作為預(yù)處理工具來(lái)來(lái)進(jìn)行其他得后續(xù)分析,如聚類、線性回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)或機(jī)器學(xué)習(xí)算法。這種技術(shù)在其他領(lǐng)域很常見(jiàn),如神經(jīng)最新科學(xué)、生物和生物醫(yī)學(xué)最新科學(xué)。然而,隨著地球最新科學(xué)中得大型數(shù)據(jù)集變的越來(lái)越復(fù)雜,有必要采用其他領(lǐng)域得方法。