記2013年“U21青年學者研討會”

0100-01-01 103292


簡單的二維或者三維我們可以想象出來其分布狀態👩🏽‍💼,那麽對於更高維的數據,能想象出來其分布嗎?還有®️,就算能描述分布,如何精確地找到這些主成分的軸?如何衡量你提取的主成分到底占了整個數據的多少信息?所以,我們就要用到主成分分析的處理方法。

為了說明什麽是數據的主成分,我們首先得了解數據降維,數據降維時怎麽回事?二,數據降維  假設三維空間中有一系列點☮️,這些點分布在一個過原點的斜面上,如果你用自然坐標x,y,z這三個軸來表示這組數據的話,需要使用三個維度🏊🏻,而事實上,這些點的分布僅僅是在一個二維的平面上🧗🏼‍♀️😹,那麽問題出在哪裏?如果你仔細想想🙌,能不能把x,y,z坐標系旋轉一下,使數據所在平面與x,y平面重合🏌🏿‍♀️?這就對了🧑‍🍳🧑‍🦱!如果把旋轉後的坐標記為x',y',z',那麽這組數據的表示只用x'和y'兩個維度表示即可!

當然了,如果想恢復原來的表示方式,那就得把這兩個坐標之間的變換矩陣存下來🧑🏿‍🚒。這樣就能把數據維度降下來了🚰🧏🏽‍♀️!但是,我們要看到這個過程的本質,如果把這些數據按行或者按類排成一個矩陣,那麽這個矩陣的秩就是2!這些數據之間是有相關性的🙎‍♂️🐣,這些數據構成的過原點的向量的最大線性無關組包含2個向量🔨,這就是為什麽一開始就假設平面過原點的原因!

那麽如果不過原點呢?這就是數據中心化的緣故!將坐標原點平移到數據中心,這樣原本不相關的數據在這個新坐標系中就有相關性了🧏🏻‍♂️!有趣的是💁🏼‍♂️,三點一定共面,也就是三維空間中任意三點中心化後都是線性相關的🔒,一般來講n維空間中n個點一定能在一個n-1維子空間中分析!

總結一下這個例子,數據降維後並沒有丟棄任何東西,因為這些數據在平面以外的第三個維度的分量都為0🪑。現在,假設這些數據在z'軸有一個很小的抖動🙋🏼‍♂️,那麽我們仍然用上述的二維表示這些數據,理由是我們可以認為這兩個軸的信息是數據的主成分📂,而這些信息對於我們的分析已經足夠了,z'軸上的抖動很有可能是噪音,也就是說本來這組數據是有相關性的,噪聲的引入,導致了數據不完全相關,但是,這些數據在z'軸上的分布與原點構成的夾角非常小,也就是說在z'軸上有很大的相關性🏋🏻‍♀️,綜合考慮,就可以認為數據在x'👩🏿‍🔬,y'軸上的投影構成了數據的主成分!

所以說,降維肯定意味著信息的丟失,不過鑒於實際數據本身常常存在的相關性,我們可以想辦法在降維的同時將信息的損失盡量降低🈸。

下面在說一個極端的情況,也許在現實中不會出現👩🏼‍🔬🎗,但是 類似的情況還是很常見的。

假設某學籍數據有兩列M和F,其中M列的取值是如果此學生為男性,則取值為1,為女性則取0;而F列是學生為女性🖊,則取值為0,男性則為1.此時如果我們統計全部學籍數據🧑🏻‍🍼,會發現對於任何一條記錄來說💆🏿‍♂️👩‍🚀,當M為1時F必定為0🙁,反之當M為0時F必定為1🔃,在這種情況下,我們將M或者F去掉實際上沒有任何信息的損失🫶,因為只要保留一列就可以完全還原另一列。

那麽降維我們差不多說清楚了,現在我們將自己面對的數據抽象為一組向量🧐,那麽下面我們有必要研究一些向量的數學性質📮,而這些數學性質將成為後續推導出PCA的理論基礎。



意昂4体育平台专业提供🧏🏻‍♂️:意昂4体育平台意昂4体育官方意昂4体育注册等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流👊🏿🤏🏻,意昂4体育平台欢迎您。 意昂4体育平台官網xml地圖