中文字幕在线中字日韩_成人激情站_a√在线观看_狠狠操综合_精品国产一二三_久久五月精品中文字幕

English | 中文版 | 手機版 企業(yè)登錄 | 個人登錄 | 郵件訂閱
當前位置 > 首頁 > 技術(shù)文章 > 主成分分析在生命科學研究中的應(yīng)用

主成分分析在生命科學研究中的應(yīng)用

瀏覽次數(shù):10911 發(fā)布日期:2009-2-4  來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責任自負
主成分分析常常用于基因組全序列表達研究,但是,到底什么是主成分分析?如何將這種方法用于對高維度數(shù)據(jù)的分析中呢?

       生命科學研究中采用的一些測定方法,對每個樣品所采集的數(shù)據(jù)的變量要多于所測定的樣品數(shù)。例如,DNA芯片及質(zhì)譜儀可以對上百個樣品中數(shù)以千計的mRNAs或蛋白質(zhì)水平進行測定。諸如此類的高維度測定使得樣品的分析結(jié)果很難清晰便捷地進行判斷,也限制了對數(shù)據(jù)進行簡單分析的應(yīng)用。

       主成分分析(Principal component analysis, PCA)是一種數(shù)學算法,它可以在減少數(shù)據(jù)維度的同時,保留數(shù)據(jù)集中絕大多數(shù)的變量[1]。PCA通過對主成分進行辨別,找出一個方向,并沿此方向分布的數(shù)據(jù)為最大值,從而減少數(shù)據(jù)維度。通過采用這樣的主成分,便可以只選用若干變量而不是上千的變量來對一種樣品進行分析了。這樣,就可以將樣品有關(guān)變量繪制成圖,使得樣品間的相似性和相異之處一目了然,對不同樣品是否可以歸為一組,也一清二楚。

       Saal等人 [2] 曾使用基因芯片對105個乳腺腫瘤樣品中的27,648個基因表達情況進行了檢測。本文將采用這組基因表達數(shù)據(jù)集表明PCA如何只用很少的變量就能完成對樣品的分析,包括基因的表達水平、基因表達模式等。所需實驗數(shù)據(jù)來自Gene Expression Omnibus database(accession no.GSE5325)。


a 每一點代表一個乳腺癌樣品中兩個基因的表達水平(在a-c, e中雌激素受體陽性ER+的樣品顯示為紅色,黑色代表陰性ER—)。

b PCA分析了兩個主成分PC1和PC2,沿著這兩個主成分數(shù)據(jù)有最大的分散。

c 樣品數(shù)據(jù)只用一維顯示,將ER+、ER—和所有樣品的數(shù)據(jù)都分別記入第一個主成分PC1中。

d 當PCA用于分析樣品所有8534個基因的表達水平時,主成分的變量情況。

e PCA二維圖,用前兩個主成分數(shù)據(jù)形成的散點圖,兩個基因采用其權(quán)重系數(shù)作為主成分 (綠點所示)。所示標度適用于樣品;該標度需除以950,才得到基因所對應(yīng)的標度。

f 圖e中的樣品數(shù)據(jù)依ERBB2的情況繪制的圖(藍色、ERBB2+、棕色、ERBB2—、綠色、情況未知)。

主成分

       盡管要深入理解PCA的算法需要具備線性代數(shù)的知識,但是,其基本原理卻可以通過簡單的幾何圖形進行解釋。為了更加簡單明了的弄清個中原理,不妨假設(shè)在這一實驗中,采用的基因芯片只對兩個基因GATA3和XBP1的表達水平進行檢測。這樣可以簡化根據(jù)乳腺癌樣品表達譜進行作圖的過程,因為它只包含了兩組數(shù)據(jù)(圖.1a)。我們將乳腺癌樣品按照雌激素受體陽性或陰性進行分類,本文已選擇了兩個基因,其表達水平與雌激素受體水平相關(guān)[3]。

       在PCA中,鑒別出新的變量即主成分——原始變量的線性組合。這項二維基因表達譜研究中所采用的兩個主成分見圖.1b。可以很清楚的看出,沿第一個主成分方向,分布的是樣品最大變量;沿第二個主成分的方向分布的是與第一個主成分無相關(guān)的最大變量。

       如果數(shù)據(jù)已經(jīng)過標準化,那么每個基因的數(shù)據(jù)都應(yīng)該集中在0平均表達水平,主成分是代表標準化后的基因表達數(shù)據(jù)協(xié)方差的特征向量,并根據(jù)它們包含變量信息的多少而被排序。每個主成分都可被理解為一個向量,且它們之間互不相關(guān),每個主成分都盡可能的包含了樣品變量的最大差異。這里,用于研究的基因數(shù)據(jù)在進行PCA前都被進行了標準化,圖.1b中的第一個主成分PC1=0.83×GATA3 + 0.56×XBP1。主成分很好的體現(xiàn)了每個樣品數(shù)據(jù)本身的特征,有時就是指特征向量。和PCA相關(guān)的方法包括獨立成分分析,該方法是用來確認成分之間統(tǒng)計學上互相獨立,而不僅僅是非相關(guān)的方法。


減維與圖像化

       我們可以通過把每個變量都集中到第一主成分中的方法從而把上面的二維分析簡化成一維分析(圖.1c)。這種一維的分析方法同樣保留了樣品間激素受體的差異性。將數(shù)據(jù)轉(zhuǎn)變成主成分也可以看成是另一種基因表達譜,因此這種標準化后的主成分有時也被稱作特征基因。因此,對于每個很好代表了樣品信息的主成分,PCA都展示了一個基因表達譜。而且,由于數(shù)據(jù)都是標準化后的,所以樣品都是0平均表達,特征基因也就是樣品協(xié)方差的特征向量。

       剛才,我們用兩個基因的數(shù)據(jù)演示了PCA是如何工作的,但如何分析數(shù)千個基因的數(shù)據(jù)呢?讓我們看看用PCA對105個樣品表達量的研究吧。這105個樣品是用有8534個探針的基因芯片進行分析的。為了讓我們對數(shù)據(jù)的維度有個概念,我們從每個主成分中所有基因共有變量的比例開始(圖.1d)。注意,盡管前面的幾個主成分比后面的幾個主成分有更多的變量,但是第一個和第二個主成分只含有22%的原始變量,所以還需要63個主成分來囊括其它約90%的原始變量。另一方面,只需104個主成分就可以包含所有的原始變量了,這比起8534個原始變量來說,要少得多。當變量的數(shù)目比樣品的數(shù)目多時,PCA可以在不損失信息量的情況下將樣品的維度最大程度地減少至樣品數(shù)。

       為了檢測包含在前兩個主成分中的變量是否攜帶乳腺癌樣品相關(guān)的信息,每一個樣品的數(shù)據(jù)都被計入這兩個主成分了(圖.1e)。結(jié)果我們將所有基因的數(shù)目這一維度減少到二維,但仍然保留了足以區(qū)分雌激素受體陽性樣品和雌激素受體陰性樣品的信息。我們已經(jīng)知道雌激素受體對乳腺癌細胞的基因表達有很大的影響[3],但PCA分析并沒有得到兩個分離的結(jié)果(圖.1e),這表明用PCA來發(fā)現(xiàn)未知的基因是很困難的。除此之外,用基因表達譜可根據(jù)是否攜帶有ERBB2基因的拷貝,來對乳腺癌進行分類,但只用前兩個主成分進行分析時不能包含該信息(圖.1f)。這提醒我們PCA是用來分析最大變量的,而不是對樣品進行分類的。同樣需要注意的是高通量技術(shù)得來的數(shù)據(jù)之間的差異可能是由于系統(tǒng)性試驗誤差導(dǎo)致的[5-7],而由此得到的主成分和誤差相關(guān)。

由于主成分針對每個基因都具有相應(yīng)的權(quán)重系數(shù),因此我們就可以用權(quán)重來直觀地對PCA圖中每個基因進行讀圖[8]。大部分基因都分布在我們上述的二維圖線兩側(cè),但最大權(quán)重基因的主成分會超出各自的范圍[9]。二維圖提供了一個方法,即用和基因情況相對應(yīng)的PCA得到的樣品數(shù)據(jù)情況來判斷某些樣品中基因群的表達情況。圖.1e是以兩個基因為例所作的分析。


計算生物學中的應(yīng)用

       PCA的一項明顯的用處是研究高維度的數(shù)據(jù)集,就象以上提到的那樣。通常,我們使用三維圖象來做研究,樣品數(shù)據(jù)要不就被計入主成分,象上面例子中的那樣,要不根據(jù)它們和主成分的相關(guān)性直接繪在圖上[10]。因為在二維或三維圖像化的過程中很多信息不可避免的會被丟失掉,所以在圖像化數(shù)據(jù)的過程中系統(tǒng)地嘗試幾種主成分的組合就顯得非常重要了。因為主成分間互不相關(guān),所以它們也就代表了樣品數(shù)據(jù)的不同方面。這也意味著在對樣品數(shù)據(jù)進行聚類或分類時,PCA可以作為一個非常有用的初步處理工具。然而決定在后續(xù)的分析中采用多少主成分,哪些主成分是一個很大的困難,這種困難體現(xiàn)在幾個方面[1]。例如,可以使用一個與目標表型[9]相關(guān)的主成分或使用足夠多的主成分來囊括數(shù)據(jù)中幾乎所有的變量[11]。PCA的結(jié)果非常依賴于對數(shù)據(jù)的預(yù)處理和所選擇的變量。因此,檢查PCA的圖也可以發(fā)現(xiàn)一些信息,這些信息表明了對數(shù)據(jù)的預(yù)處理的方式的不同和所選擇的變量的不同。

       PCA經(jīng)常被用來進行數(shù)據(jù)的奇異值分解(singular value decomposition, SVD)。樣品樣的特征陣列和基因樣的特征基因譜都可以同時經(jīng)由SVD分析獲得[10,12]。很多超出了減維、分類和聚類的應(yīng)用都利用由SVD而產(chǎn)生的基因表達圖譜的全球表型。應(yīng)用還包括辨別出試驗誤差,并過濾掉這些誤差[6]、估計丟失的數(shù)據(jù)、相關(guān)基因及其表達譜、調(diào)節(jié)子的活性,并可以幫助發(fā)現(xiàn)細胞表型的動態(tài)結(jié)構(gòu)[7,10,12]。隨著技術(shù)的飛速發(fā)展,產(chǎn)生了高維度的分子生物學數(shù)據(jù),這將在未來的幾年內(nèi),給PCA帶來更多可能的應(yīng)用。

原文檢索:www.nature.com

參考文獻:
[1]Jolliffe, I.T. Principal Component Analysis (Springer, New York, 2002).
[2]Saal, L.H. et al. Proc. Natl. Acad. Sci. USA 104, 7564-7569(2007).
[3]Perou, C.M. et al. Nature 406, 747-752(2000).
[4]Common, P. Signal Process. 36, 287-314(1994).
[5]Coombes, K.R. et al. Nat. Biotechnol. 23, 291-292(2005).
[6]Nielsen, T.O. et al. Lancet 359, 1301-1307(2002).
[7]Li, C.M. & Klevecz, R.R. Proc. Natl. Acad. Sci. USA 103, 16254-16259(2006).
[8]Gabriel, K.R. Biometrika 58, 453-467(1971).
[9]Landgrebe, J. Wurst, W. & Weizi, G. Genome Biol. 3, RESEARCH0019(2002).
[10]Alter, O., Brown, P.O. & Botstein, D. Proc. Natl. Acad. Sci. USA 97, 10101-10106(2000).
[11]Khan, J. et al. Nat. Med. 7, 673-679(2001).
[12]Holter, N.S. et al. Proc. Natl. Acad. Sci. USA 97, 8409-8414(2000).

小詞典:
主成分分析(principal component analysis)
       將多個變量通過線性變換以選出較少個重要變量的一種多元統(tǒng)計分析方法,又稱主分量分析。在實際課題中,為了全面分析問題,往往提出很多與此有關(guān)的變量(或因素),因為每個變量都在不同程度上反映這個課題的某些信息。但是,在用統(tǒng)計分析方法研究這個多變量的課題時,變量個數(shù)太多就會增加課題的復(fù)雜性。人們自然希望變量個數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當兩個變量之間有一定相關(guān)關(guān)系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。主成分分析首先是由K.皮爾森對非隨機變量引入的,爾后H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。

發(fā)布者:上海伯豪生物技術(shù)有限公司
聯(lián)系電話:021-58955370
E-mail:market@shbio.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網(wǎng)友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2025 生物器材網(wǎng) 電話:021-64166852;13621656896 E-mail:info@bio-equip.com
主站蜘蛛池模板: 欧美污污视频 | 亚洲欧美成人综合涩涩屋下载 | 阿娇囗交全套高清视频ai换脸 | 亚洲AV成本人无码网站 | 国产欧美另类久久久精品不卡 | 欧洲熟妇色XXXX欧美老妇免费 | 日韩一区高清视频 | 青青视频一区二区 | 黑人狂虐中国人妻陈艳 | 97超碰人人在线 | 国产精品久久久久久久曹县翰林府 | 成年女人A毛片免费视频 | 国产日韩欧美高清 | 91逼逼| 国产三级黄色大片 | 成人免费视频中文字幕 | 久久天天草 | 一区二区中文字幕在线观看 | 国产精品丝袜黑色高跟鞋 | 欧美日韩精品影院 | 三年片在线观看免费视频 | 久草色视频 | 国产欧美日韩精品一区二区三区 | 99在线视频播放 | 亚洲丰满熟女一区二区v | 国产精品一区二区三区乱码 | 91亚洲精品乱码久久久久久蜜桃 | 欧美一级毛片视频 | 视频久久免费 | 91视频看片| 中文字幕一区二区三区第十负 | 大伊人影院 | 国产伊人一区 | 日本黄色免费大片 | 欧美绝品在线观看成人午夜影视 | 99re这里只有精品首页 | 美女黄色a级 | 国产成人高清在线观看 | 美女黄a一级视频 | 成人做爰9片免费看网站 | 9l视频自拍九色9l视频 |