字級大小SCRIPT,如您的瀏覽器不支援,IE6請利用鍵盤按住ALT鍵 + V → X → (G)最大(L)較大(M)中(S)較小(A)小,來選擇適合您的文字大小,如為IE7或Firefoxy瀏覽器則可利用鍵盤 Ctrl + (+)放大 (-)縮小來改變字型大小。
:
twitter line
研究生: 王景文
論文名稱: 基於互信息的變數分群和變數選取
論文名稱(外文): Variable Clustering and Variable Selection Based on Mutual Information
指導教授: 周志成 周志成引用關係
學位類別: 碩士
校院名稱: 國立交通大學
系所名稱: 電控工程研究所
學門: 工程學門
學類: 電資工程學類
論文種類: 學術論文
論文出版年: 2011
畢業學年度: 99
語文別: 中文
論文頁數: 60
中文關鍵詞: 互信息 變數分群 變數選取
外文關鍵詞: mutual information variable clustering variable selection
相關次數:
  • 被引用 被引用:0
  • 點閱 點閱:361
  • 評分 評分:
  • 下載 下載:49
  • 收藏至我的研究室書目清單 書目收藏:0
資訊爆炸時代各領域處理的資料量不斷倍增,變數選取——如何從龐大的資料中挑選出最有價值的變數——已成為一個至關重要的問題。變數選取的目的有二:藉由挑選代表變數達到簡化系統的效果,以及針對給定的目標變數挑選有效的解釋變數以建立高準確度的預測模型。變數分群是變數選取的一種實現過程,其功用在將相似度高的變數聚在一群,再從每一群中挑出具代表性的變數。傳統變數分群和變數選取的方法受到變數間必須呈線性關係、資料型態必須是連續及呈多變量常態分布這些條件的限制,本論文提出一種基於互信息理論的變數分群、變數選取方法,使用互信息來衡量變數的相似度可以克服傳統方法的限制。變數分群有兩種模式,一是以互信息當作變數間的“距離”使用k-中心分群,二是先推論出互信息網路,在其上使用譜分群。變數選取則依兩種不同的目的分別以互信息和中心度來挑選每一群的代表變數。最後以晶圓製程的資料來驗證我們的方法,結果顯示k-中心分群所選出來的變數在兩種變數選取的目的上均有較佳的表現。
中文摘要 i
英文摘要 ii
誌謝 iv
目錄 v
圖目錄 vii
表目錄 viii
第一章 緒論 1
1.1 研究動機 1
1.2 研究方法 3
1.3 論文結構 5
第二章 文獻回顧 7
2.1 逐步選取法 7
2.2 因素分析 8
2.3 階層式分群 10
第三章 互信息和互信息網路 13
3.1 互信息與熵 13
3.2 互信息的估計 14
3.3 互信息網路 16
第四章 分群和變數選取 20
4.1 k-中心和影值 20
4.2 譜分群 21
4.3 中心度和變數選取 24
4.4 研究方法總結 26
第五章 實驗 28
5.1 實驗簡介 28
5.2 變數分群結果 29
5.3 變數選取結果 39
5.4 離散資料的變數分群與選取結果 45
第六章 結論 49
附錄 51
參考文獻 59



[1] 郭宇豪, "圖形化高斯模型應用於自動化生產資料之關聯性分析," 碩士論文, 電機與控制工程學系, 國立交通大學, 民國九十三年.
[2] H. Abdi, "Factor Rotations in Factor Analyses," Encyclopedia for Research Methods for the Social Sciences. Sage: Thousand Oaks, CA, pp. 792-795, 2003.
[3] P. E. Meyer, et al., "minet: A r/bioconductor package for inferring large transcriptional networks using mutual information," BMC bioinformatics, vol. 9, p. 461, 2008.
[4] W. Zhao, et al., "Inferring Connectivity of GeneticRegulatory Networks Using Information-Theoretic Criteria," IEEE/ACM Transactions on Computational Biology and Bioinformatics, pp. 262-274, 2007.
[5] C. Hsun-Hsien and R. Marco, "Transcriptional Network Cassifiers," BMC bioinformatics, vol. 10.
[6] A. Margolin, et al., "ARACNE: An Algorithm for the Reconstruction of Gene Regulatory Networks in a Mammalian Cellular Context," BMC bioinformatics, vol. 7, p. S7, 2006.
[7] P. E. Meyer, et al., "Information-Theoretic Inference of Large Transcriptional Regulatory Networks," EURASIP Journal on Bioinformatics and Systems Biology, vol. 2007, pp. 8-8, 2007.
[8] U. Von Luxburg, "A Tutorial on Spectral Clustering," Statistics and Computing, vol. 17, pp. 395-416, 2007.
[9] L. Hagen and A. B. Kahng, "New Spectral Methods for Ratio Cut Partitioning and Clustering," Computer-Aided Design of Integrated Circuits and Systems, IEEE Transactions on, vol. 11, pp. 1074-1085, 1992.
[10] L. C. Freeman, "Centrality in Social Networks Conceptual Clarification," Social networks, vol. 1, pp. 215-239, 1979.
[11] 施昱安, "給定資料不同損失涵式的提升演算法," 碩士論文, 電機與控制工程學系, 國立交通大學, 民國九十二年.
[12] 羅華強, 類神經網路-MATLAB的應用: 清蔚科技, 2001.

連結至畢業學校之論文網頁 點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!