به کارگیری خوشه‌بندی دوبعدی با روش «زیرماتریس‌های با میانگین- درایه‌های بزرگ» در داده‌های بیان ژنی حاصل از ریزآرایه‌های DNA

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه آمار زیستی دانشکده پیراپزشکی دانشگاه علوم پزشکی شهید بهشتی، تهران، ایران

2 دانشکده پیراپزشکی دانشگاه علوم پزشکی شهید بهشتی، تهران، ایران

3 گروه علوم پایه دانشکده پیراپزشکی دانشگاه علوم پزشکی شهید بهشتی، تهران، ایران

چکیده

مقدمه و هدف: در سال‌های اخیر، فناوری ریزآرایه‌ی DNA نقش اساسی در تحقیقات ژنومی داشته‌­است. با استفاده از این فناوری که امکان آنالیز هم­زمان سطوح بیان هزاران ژن را در شرایط مختلف فراهم­آورده­است، به حجم انبوهی از داده‌ها دست­می‌یابیم. روش‌های کلاسیک خوشه‌بندی نظیر روش‌های سلسله‌مراتبی و غیرسلسله‌مراتبی، روش‌هایی مناسب برای تحلیل این­گونه داده‌ها هستند اما محدودیت‌هایی نیز دارند. در این روش‌ها فرض بر آن است که یک ژن یا یک شرایط آزمایشی را تنها می‌توان به یک خوشه منتسب­کرد و یک ژن، متعلق به گروهی از ژن‌هاست که با هم، تحت همه‌ شرایط آزمایشی تنظیم می‌شوند. بنابراین به­منظور رفع این کاستی‌ها از روش‌های خوشه‌بندی دوبعدی استفاده­می‌شود. هدف از این پژوهش، بررسی کارآیی یک روش خوشه‌بندی دو­بعدی در تحلیل داده‌های بیان ژنی مخمر است.
 مواد و روش‌ها: در این پژوهش، داده‌های بیان ژنی مخمرِ Saccharomyces cerevisiae گسچ و همکاران (2000) با استفاده از روش خوشه‌بندی دوبعدی (LAS Large Average Submatrices;) تحلیل­شده­اند. مجموعه‌ داده‌ها، 173 شرایط آزمایشی مختلف و مجموعه‌ای از 2993 ژن را در­بر­گرفته و برای تحلیل داده‌ها از نرم‌افزارهای LAS، JMP و  GOAL استفاده­شده­است.
 نتایج: نتایج نشان­داد که روش LAS قادر است خوشه‌های دوبعدی مناسبی از دیدگاه آماری و زیست‌شناسی تولید­کند.
 نتیجه‌گیری: این مطالعه نشان‌­می‌دهد که می‌توان با استفاده از روش LAS، زیرمجموعه‌هایی از ژن‌ها را با الگوهای بیان مشابه در زیرمجموعه‌ای از شرایط آزمایشی شناسایی­کرد که از نظر زیست‌شناسی معنی‌دارند.

کلیدواژه‌ها


عنوان مقاله [English]

Biclustering of DNA microarray gene expression data by Large Average Submatrices Method

نویسندگان [English]

  • Hamid Alavi Majd 1
  • Shima Younespoor 2
  • Farid Zayeri 1
  • Mostafa Rezaei Tavirani 3
1 Department of Biostatistics, Paramedical Sciences Faculty, Shahid Beheshti Medical Sciences University, Tehran, Iran.
2 Department of Biostatistics, Paramedical Sciences Faculty, Shahid Beheshti Medical Sciences University, Tehran, Iran
3 Department of Basic Sciences, Paramedical Sciences Faculty, Shahid Beheshti Medical Science University, Tehran, Iran
چکیده [English]

Background and Objective: In recent years, DNA microarray technology has become a central tool in genomic research. Using this technology, which made it possible to simultaneously analyze expression levels for thousands of genes under different conditions, massive amounts of information will be obtained. While traditional clustering methods, such as hierarchical and K-means clustering have been shown to be useful in analyzing microarray data, they have some limitations. These methods assume that a gene or an experimental condition can be assigned to only one cluster and a gene belongs to a group of genes that are coexpressed under all conditions. Therefore, to overcome these shortcomings, biclustering methods are used. The purpose of this paper was to evaluate the efficiency of a biclustering method in analyzing yeast gene expression data.
 Materials and Methods: In this study, Large Average Submatrices (LAS) method has been used to analyze the yeast Saccharomyces cerevisiae expression dataset, provided by Gasch et al. (2000). The dataset contains 2993 genes and 173 different experimental conditions. In this study, the software packages such as LAS, JMP and GOAL has been used for analyzing data.
 Results: Results showed that the LAS method is able to produce biologically and statistically relevant biclusters. 
 Conclusion: This study showed that LAS can be used to discover biologically significant subsets of genes under subsets of conditions for microarray data analysis.

کلیدواژه‌ها [English]

  • Biclustering
  • Gene expression data
  • DNA microarray
  • Gene ontology
  • Large Average Submatrices (LAS)
1- Knudsen S. Guide to analysis of DNA microarray data. 2 ed: John Wiley and Sons 2004.
2- Francesco B, Adam P, Ivan P, Silvia S, Andrea S, Livia T, et al. GEMMA - A Grid environment for microarray management and analysis in bone marrow stem cells experiments. Elsevier Science Publishers B. V. 2007:382-90.
3- Tanay A, Sharan R, Shamir R. Discovering statistically significant biclusters in gene expression data. Bioinformatics. 2002;18 Suppl 1:S136-44.
 4-   Johnson RA, Wichern DW. Applied multivariate statistical data analysis: Prentice Hall: Upper Saddle River, NJ 2002.
 5-   Gu J, Liu JS. Bayesian biclustering of gene expression data. BMC Genomics. 2008;9 Suppl 1:S4.
 6-   Hartigan JA. Direct clustering of a data matrix. Journal of the american statistical association (JASA). 1972;67(337):123-9.
 7-   Cheng Y, Church GM. Biclustering of expression data. Proc Int Conf Intell Syst Mol Biol 2000:93-103.
 8- Lazzeroni L, Owen A. Plaid models for gene expression data. Citeseer 2002:61-86.
 9- Ben-Dor A, Chor B, Karp R, Yakhini Z. Discovering local structure in gene expression data: the order-preserving submatrix problem. J Comput Biol. 2003;10(3-4):373-84.
10- Madeira SC, Oliveira AL. Biclustering algorithms for biological data analysis: a survey. Published by the IEEE CS, NN, and EMB Societies & the ACM 2004:24-45.
11- Prelic A, Bleuler S, Zimmermann P, Wille A, Buhlmann P, Gruissem W, et al. A systematic comparison and evaluation of biclustering methods for gene expression data. Bioinformatics. 2006 May 1;22(9):1122-9.
12- Shabalin AA, Weigman VJ, Perou CM, Nobel AB. Finding large average submatrices in high dimensional data.  2009:985-1012.
13- Al-Akwaa FM, Kadah YM. An automatic gene ontology software tool for bicluster and cluster comparisons. IEEE 2009:1.7-63.
14- Gasch AP, Spellman PT, Kao CM, Carmel-Harel O, EisenMB, Storz G, et al. Genomic expression programs in the response of yeast cells to environmental changes. Mol Biol Cell. 2000;11(12):4241-57.
15- Shenga Q, Lemmensa K, Marchalab K, De Moora B, Moreaua Y. Query-driven biclustering of microarray data by Gibbs sampling: Internal report 05-33, Department of Electrical Engineering (ESAT-SCD-SISTA), Katholieke Universiteit Leuven, Belgium; 2005.
16- Gasch AP, Spellman PT, Kao CM, Carmel-Harel O, EisenMB, Storz G, et al. Genomic expression programs in the response of yeast cells to environmental changes. Mol Biol Cell  2000  [cited; Available from: http://genome-www.stanford.edu/yeast_stress/
17- Ashburner M, BallCA, Blake JA, Botstein D, Butler H, Cherry JM, et al. Gene ontology: tool for the unification of biology. Nature Publishing Group 2000:25-9.
18- Day-Richter J, Harris MA, Haendel M. OBO-Edit an ontology editor for biologists. Oxford Univ Press 2007:2198.
19- Carbon S, Ireland A, Mungall CJ, Shu SQ, Marshall B, Lewis S. AmiGO: online access to ontology and annotation data. Oxford Univ Press 2009:288.
20- Cheng KO, Law NF, Siu WC, Liew AWC. Biclusters Visualization and Detection Using Parallel Coordinate Plots. AIP Conference Proceedings. 2007;952(1):114-23.
21- Okada Y, Fujibuchi W, Horton P. A Biclustering Method for Gene Expression Module Discovery Using a Closed Itemset Enumeration Algorithm. IPSJ Digital Courier. 2007;3:183-92.
22- Tchagang AB, Gawronski A, Berube H, Phan S, Famili F, Pan Y. GOAL: a software tool for assessing biological significance of genes groups. BMC Bioinformatics.11:229.