به کارگیری خوشه‌بندی دوبعدی با روش «زیرماتریس‌های با میانگین- درایه‌های بزرگ» در داده‌های بیان ژنی حاصل از ریزآرایه‌های DNA

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه آمار زیستی دانشکده پیراپزشکی دانشگاه علوم پزشکی شهید بهشتی، تهران، ایران

2 دانشکده پیراپزشکی دانشگاه علوم پزشکی شهید بهشتی، تهران، ایران

3 گروه علوم پایه دانشکده پیراپزشکی دانشگاه علوم پزشکی شهید بهشتی، تهران، ایران

چکیده

مقدمه و هدف: در سال‌های اخیر، فناوری ریزآرایه‌ی DNA نقش اساسی در تحقیقات ژنومی داشته‌­است. با استفاده از این فناوری که امکان آنالیز هم­زمان سطوح بیان هزاران ژن را در شرایط مختلف فراهم­آورده­است، به حجم انبوهی از داده‌ها دست­می‌یابیم. روش‌های کلاسیک خوشه‌بندی نظیر روش‌های سلسله‌مراتبی و غیرسلسله‌مراتبی، روش‌هایی مناسب برای تحلیل این­گونه داده‌ها هستند اما محدودیت‌هایی نیز دارند. در این روش‌ها فرض بر آن است که یک ژن یا یک شرایط آزمایشی را تنها می‌توان به یک خوشه منتسب­کرد و یک ژن، متعلق به گروهی از ژن‌هاست که با هم، تحت همه‌ شرایط آزمایشی تنظیم می‌شوند. بنابراین به­منظور رفع این کاستی‌ها از روش‌های خوشه‌بندی دوبعدی استفاده­می‌شود. هدف از این پژوهش، بررسی کارآیی یک روش خوشه‌بندی دو­بعدی در تحلیل داده‌های بیان ژنی مخمر است.
 مواد و روش‌ها: در این پژوهش، داده‌های بیان ژنی مخمرِ Saccharomyces cerevisiae گسچ و همکاران (2000) با استفاده از روش خوشه‌بندی دوبعدی (LAS Large Average Submatrices;) تحلیل­شده­اند. مجموعه‌ داده‌ها، 173 شرایط آزمایشی مختلف و مجموعه‌ای از 2993 ژن را در­بر­گرفته و برای تحلیل داده‌ها از نرم‌افزارهای LAS، JMP و  GOAL استفاده­شده­است.
 نتایج: نتایج نشان­داد که روش LAS قادر است خوشه‌های دوبعدی مناسبی از دیدگاه آماری و زیست‌شناسی تولید­کند.
 نتیجه‌گیری: این مطالعه نشان‌­می‌دهد که می‌توان با استفاده از روش LAS، زیرمجموعه‌هایی از ژن‌ها را با الگوهای بیان مشابه در زیرمجموعه‌ای از شرایط آزمایشی شناسایی­کرد که از نظر زیست‌شناسی معنی‌دارند.

کلیدواژه‌ها


1- Knudsen S. Guide to analysis of DNA microarray data. 2 ed: John Wiley and Sons 2004.
2- Francesco B, Adam P, Ivan P, Silvia S, Andrea S, Livia T, et al. GEMMA - A Grid environment for microarray management and analysis in bone marrow stem cells experiments. Elsevier Science Publishers B. V. 2007:382-90.
3- Tanay A, Sharan R, Shamir R. Discovering statistically significant biclusters in gene expression data. Bioinformatics. 2002;18 Suppl 1:S136-44.
 4-   Johnson RA, Wichern DW. Applied multivariate statistical data analysis: Prentice Hall: Upper Saddle River, NJ 2002.
 5-   Gu J, Liu JS. Bayesian biclustering of gene expression data. BMC Genomics. 2008;9 Suppl 1:S4.
 6-   Hartigan JA. Direct clustering of a data matrix. Journal of the american statistical association (JASA). 1972;67(337):123-9.
 7-   Cheng Y, Church GM. Biclustering of expression data. Proc Int Conf Intell Syst Mol Biol 2000:93-103.
 8- Lazzeroni L, Owen A. Plaid models for gene expression data. Citeseer 2002:61-86.
 9- Ben-Dor A, Chor B, Karp R, Yakhini Z. Discovering local structure in gene expression data: the order-preserving submatrix problem. J Comput Biol. 2003;10(3-4):373-84.
10- Madeira SC, Oliveira AL. Biclustering algorithms for biological data analysis: a survey. Published by the IEEE CS, NN, and EMB Societies & the ACM 2004:24-45.
11- Prelic A, Bleuler S, Zimmermann P, Wille A, Buhlmann P, Gruissem W, et al. A systematic comparison and evaluation of biclustering methods for gene expression data. Bioinformatics. 2006 May 1;22(9):1122-9.
12- Shabalin AA, Weigman VJ, Perou CM, Nobel AB. Finding large average submatrices in high dimensional data.  2009:985-1012.
13- Al-Akwaa FM, Kadah YM. An automatic gene ontology software tool for bicluster and cluster comparisons. IEEE 2009:1.7-63.
14- Gasch AP, Spellman PT, Kao CM, Carmel-Harel O, EisenMB, Storz G, et al. Genomic expression programs in the response of yeast cells to environmental changes. Mol Biol Cell. 2000;11(12):4241-57.
15- Shenga Q, Lemmensa K, Marchalab K, De Moora B, Moreaua Y. Query-driven biclustering of microarray data by Gibbs sampling: Internal report 05-33, Department of Electrical Engineering (ESAT-SCD-SISTA), Katholieke Universiteit Leuven, Belgium; 2005.
16- Gasch AP, Spellman PT, Kao CM, Carmel-Harel O, EisenMB, Storz G, et al. Genomic expression programs in the response of yeast cells to environmental changes. Mol Biol Cell  2000  [cited; Available from: http://genome-www.stanford.edu/yeast_stress/
17- Ashburner M, BallCA, Blake JA, Botstein D, Butler H, Cherry JM, et al. Gene ontology: tool for the unification of biology. Nature Publishing Group 2000:25-9.
18- Day-Richter J, Harris MA, Haendel M. OBO-Edit an ontology editor for biologists. Oxford Univ Press 2007:2198.
19- Carbon S, Ireland A, Mungall CJ, Shu SQ, Marshall B, Lewis S. AmiGO: online access to ontology and annotation data. Oxford Univ Press 2009:288.
20- Cheng KO, Law NF, Siu WC, Liew AWC. Biclusters Visualization and Detection Using Parallel Coordinate Plots. AIP Conference Proceedings. 2007;952(1):114-23.
21- Okada Y, Fujibuchi W, Horton P. A Biclustering Method for Gene Expression Module Discovery Using a Closed Itemset Enumeration Algorithm. IPSJ Digital Courier. 2007;3:183-92.
22- Tchagang AB, Gawronski A, Berube H, Phan S, Famili F, Pan Y. GOAL: a software tool for assessing biological significance of genes groups. BMC Bioinformatics.11:229.