Modelos de redes bayesianas en el estudio de secuencias genómicas y otros problemas biomédicos (página 5)

Enviado por María del Carmen Chávez Cárdenas

Partes: 1, 2, 3, 4, 5

Consortium, I. H. G. S. (2004 ). Finishing the euchromatic sequence of the human genome. International Human Genome Sequencing Consortium, Nature 431 (7011): 931-45. Cooper, G. F. (1990). Computational complexity of probabilistic inference using Bayesian belief networks. Artificial Intelligence 42: 393-405. Cooper, G. F. y Herskovits, E. H. (1992). A Bayesian methods for the induction of probabilistic networks from data. Machine Learning 9(4): 309- 348. Correa, E. S., Freitas, A. A. y Johnson, C. G. (2007). Particle Swarm and Bayesian Networks Applied to Attribute Selection for Protein Functional Classification. Proceedings of the GECCO: Conference companion on Genetic and evolutionary computation, N.Y., USA 2651-2658 Cui, J., Li, P., Li, G., Xu, F., Zhao, C., Li, Y., Yang, Z., Wang, G., Yu, Q., Li, Y. y Shi, T. (2007). AtPID: Arabidopsis thaliana protein interactome database-an integrative platform for plant systems biology. Nucleic Acids Research: 1-10. Daalen, V. C. (1992). Evaluating Medical Knowledge Based Systems. Annual International Conference of the IEEE Engineering in Medicine and Biology Society 3: 888-889. Davis, L. (1991). Handbook of Genetics Algorithms. Van Nostrand Reinhold Company, New York II: 100 páginas Degroeve, S., De Baets, B., Van de Peer, Y. y Rouzé, P. (2002). Feature subset selection for splice site prediction. Bioinformatics 18(2): 75- 83. DeGroot, M. H. (1987). Probability and Statistics. 3rd Edition, Addison-Wesley. Dillon, W. y Goldstein, M. (1984). Multivariate Analysis. Methods and Aplications. John Wiley & Sons. Doldán, F. (2007). Redes Bayesianas y Riesgo Operacional. Revista Gallega de Economía 16 (Número extraordinario): http://www.usc.es/econo/RGE/Vol16_ex/Castelan/art1c.pdf. Donald, M., Spiegelhalter, C., Taylor y, J. y Campbell, E. (1994). Machine learning, neural and statistical classification Ellis Horwood Limited: 289 páginas.

edu.red

Referencias Bibliográficas 99 Dopazo, J. y Valencia, A. (2002). Bioinformática y Genómica. Genómica y mejora vegetal: 147-198 Dorigo, M. y Stützle, T. (2002). The Ant Colony Optimization Metaheuristic: Algorithms, Applications, and Advances. Handbook of Metaheuristics: 250-285. Dorigo, M. y Stützle, T. (2004). Ant Colony Optimization. MIT Press: 324 páginas. Dorigo, M., Birattari, M. y Stützle, T. (2006). Ant Colony Optimization– Artificial Ants as a Computational Intelligence Technique. IEEE Computational Intelligence Magazine 1(4): 28 – 39. Dorigo, M., Stützle, T. (2007). An Introduction to Ant Colony Optimization. In T. F. Gonzalez, editor, Handbook of Approximation Algorithms and Metaheuristics, CRC Press 26(14): 1 -26. Duda, R. O. y Hart, P. E. (1973). Pattern Classification and scene analysis. Jonh Wiley Sons. Durrett, R. (1991). Probability: Theory and Examples. Wadsworth, Pacific Grove, CA. EBI (1999). The European Bioinformatics Institute http://www.ebi.ac.uk. Efron, B. y Tibshirani, R. J. (1997). Improvements on cross-validation: The bootstrap method. J. Am. Stat. Assoc. 92: 548-560 Eitrich, T., Kless, A., Druska, C., Meyer, W. y Grotendorst, J. (2007). Classification of Highly Unbalanced CYP450 Data of Drugs Using Cost Sensitive Machine Learning Techniques. American Chemical Society: J. Chem. Inf. Model 47(1): 92-103. El-Hay, T. (2001). Efficient Methods for exact and aproximate inference in discrete Graphicals Models. Master of Science Thesis, Supervisor Nir Friedman: 17-18. EMBL (2009). Base de datos de secuencias nucleotídicas. http://www.ebi.ec.uk/embl/index.html. Escofier, B. y Pages, J. (1992). Análisis Factoriales Simples y Múltiples. Universidad del País Vasco. Bilbao. Fawcett, T. (2004). ROC Graphs: Notes and Practical Considerations for Researchers. Machine Learning: http://citeseer.ist.psu.edu/fawcett04roc.html. Ferat, S., Yavuz, M. C., Arnavut, Z. y Uluyol, O. (2007). Fault diagnosis for airplane engines using Bayesian networks and distributed particle swarm optimization. Parallel Computing, Elsevier 33: 124–143. Foley, R. A. y Lewin, R. (2004). Principles of Human Evolution. Segunda edición, Backwell publishing, Review from Times Higher Education Supplement, University of Durham. Friedman, N. (2004). Infering Cellular Networks Using Probabilistic Graphical Models. Mathematic Biology 303(5659): 799-805. Friedman, N. y Goldszmidt, M. (1996). Building Classifiers using Bayesian Networks. Proceedings of Thirteen National Conference on Artificial Intelligence 2: 1277- 1284. Friedman, N., Geiger, D. y Goldszmidt, M. (1997a). Bayesian Network Classifiers. Mach. Learn. 29(2-3): 131-163. Friedman, N., Goldszmidt, M., Heckerman, D. y Russell, S. (1997b). Challenge: Where is the impact of Bayesian networks in learning? . Proceedings of the Fifteenth International Joint Conference on Artifcial Intelligence 1: 10 -15. Fu, W. J. y Carroll, R. J. (2005). Estimating misclassification error with small samples via bootstrap cross-validation. Bioinformatics 21(7): 3301.

edu.red

Referencias Bibliográficas 100 Galperin, M. Y. (2007). The Molecular Biology Database Collection 2007 update. Nucleic Acids Res. 35: D3-D4. García, L. (1990). Probabilidad e Inteligencia Artificial. Conferencias de Laureano García, Universidad de la Habana, Cuba. Gibas, C. y Per, J. (2001). Developing Bioinformatics Computer Skills. O'Reilly & Associates 6641: 448 páginas. Gilbert, D. (2004). Bioinformatics software resources. Briefings in Bioinformatics 5(3): 300-304. Grau, R., Correa, C. y Rojas, M. (2004). Metodología de la Investigación Segunda Edición, EL POIRA Editores S.A., Ibagué, Colombia, ISBN: 958-8028-10-8. Grau, R., Galpert, D., Chávez, M. C., Sánchez, R., Casas, G. y Morgado, E. (2006). Algunas aplicaciones de la estructura booleana del Código Genético. Revista Cubana de Ciencias Informáticas 1(1): 94-109. Grau, R., Chávez, M. C., Sánchez, R., Morgado, E., Casas, G. y Bonet, I. (2007a). Boolean algebraic structures of the genetic code. Possibilities of applications. Lecture Notes on Bioinformatics, Knowledge Discovery and Emergent Complexity in Bioinformatics 4366: 10-21. Grau, R., Chávez, M. C., Sánchez, R., Morgado, E., Casas, G. y Bonet, I. (2007b). Boolean algebraic structures of the genetic code. Possibilities of applications. IN: TUYLS, K. et al. (Eds.). KDEB 2006, LNBI 4366: 10–21. Guo, H. y Viktor, H. L. (2007). Learning from Imbalanced Data Sets with Boosting and Data Generation: The DataBoost-IM Approach. SIGKDD Explorations 6(1): 30 – 39. Gutiérrez, I. (2003). Un Modelo para la Toma de Decisiones usando Razonamiento Basado en Casos en condiciones de Incertidumbre. Tesis en opción del grado de Doctor en Ciencias Técnicas, Universidad Central "Marta Abreu" de Las Villas, Cuba Tutor: Dr. Rafael Bello. Harley, C. y Reynolds, R. (1987). Analysis of E. Coli Promoter Sequences. Nucleic Acids Res. 15: 2343-2361. Headquarters, C. (2007). Visual Paradigm for UML 6.0. http://www.visual-paradigm.com Heckerman, D. (1996). A Tutorial on Learning With Bayesian Networks. Microsoft Research Tech. Report MSR-TR-95- 06, Redmond, WA: ftp://ftp.research.microsoft.com/pub/dtg/david/tutorial.ps. Heckerman, D. (1997). Bayesian networks for data mining. Data Mining and Knowledge Discovery 1: 79–119. Hernández, A. G. (2004). Aprendizaje Automático: Árboles de Decisión. Hernandis, J. A. (2005). Visual Paradigm for UML (VP- UML) 6.0. Hogg, R. V. (1993). Probability and Statistical Inference. Maxwell Macmillan International, New York. Jansen, R., Yu, H., Greenbaum, D., Kluger, Y., Krogan, N. J., Chung, S., Emili, A., Snyder, M., Greenblatt, J. F. y Gerstein, M. (2003). A Bayesian Networks Approach for Predicting Protein-Protein Interactions from Genomic Data. American Association for the Advancement of Science, Washington, USA 302(5644): 449-453. Jensen, F. V. (2001). Bayesian Network and Decision Graphs. Springer-Verlag, Nueva York.

edu.red

Referencias Bibliográficas 101 Jensen, F. V. y Nielsen, T. D. (2007). Bayesian Networks and Decisions Graphs. Information Science and Statistics Series, Springer Verlag, New York segunda edición: 294 páginas. Jeroen, H. H., Donkers, L. M. y Tuyls, K. (2008). Belief Networks for Bioinformatics. Computational Intelligence in Bioinformatics, Springer Berlin / Heidelberg: 75- 111. Jobson, J. D. (1992). Applied Multivariate Data Analysis Categorical and Multivariate Methods, Springer, New York Vol. II: 11-54. John, G., Kohavi, R. y Pfleger, K. (1994). Irrelevant features and the subset selection problem. In Machine Learning: Proceeding of Eleventh International Conference, Morgan Kaufman: 121- 129. KDnuggets (2008). Bayesian Networks and Bayesian Classifier Software. http://www.kdnuggets.com/software/bayesian.html. Kenley, C. R. (1986). Infuence Diagram Models with Continuous Variables. Ph.D. Thesis: http://www.kenley.org/Kenley1986.pdf. Kennedy, J. (1997). The particle swarm: social adaptation of knowledge. IEEE International Conference on Evolutionary Computation, April 13–16: 303–308. Kennedy, J. y Eberhart, R. C. (1995a). Particle swarm optimization. In: Proceedings of IEEE International Conference on Neural Networks, Perth: 1942–1948. Kennedy, J. y Eberhart, R. C. (1995b). A new optimizer using particle swarm theory. In: Sixth International Symposium on Micro Machine and Human Science. Nagoya: 39–43. Kennedy, J. y Spears, W. M. (1998). Matching algorithms to problems: an experimental test of the particle swarm and some genetic algorithms on the multimodal problem generator. Proceedings of the IEEE International Conference on Evolutionary Computation: 39- 43. Kennedy, J., Eberhart, R. C. y Y., S. (2001). Swarm Intelligence. Morgan Kaufmann Series in Artificial Intelligence: 510 páginas. Kjærulff, U. B. y Madsen, A. L. (2008). Bayesian Networks and Influence Diagrams: A Guide to Construction and Analysis. Springer Verlag, Series: Information Science and Statistics , New York XVIII 318 páginas. Kohavi, R. (1995). A study of cross-validation and bootstrap for accuracy estimation and model selection. 14th International Joint Conference on Artificial Intelligence (IJCAI): 1137-1145. Lanzi, P. (2006). Feature Subset Selection Using Effective Combine of Filter and Wrapper Approaches. Tesis de Grado: 139 páginas. Larrañaga, P. (2000). Aprendizaje automatico de Modelos Graficos II. Aplicaciones a la Clasificación Supervisada. Sistemas expertos probabilísticos 141-162. Larrañaga, P., Inza, I. y Moujahid, A. (2003). Modelos Probabilísticos para la Inteligencia Artificial y la Minería de Datos: Selección de Variables. Curso de Doctorado. Larrañaga, P., Calvo, B., Santana, R., Bielza, C., Galdiano, J., Inza, I., Lozano, J. A., Armañanzas, R., Santafé, G., Pérez, A. y Robles, V. (2005). Machine learning in bioinformatics. Briefings in Bioinformatics 7(1): 86-112. Lauritzen, S. L. y Spiegelhalter, D. J. (1988). Local Computations with Probabilities on Graphical Structures and Their Application to Expert Systems. J. R. Stat. Soc. B 157–224.

edu.red

Referencias Bibliográficas 102 Lebart, M. (1998). Statistique Exploratoire Multidimensionnelle. Dunod. París. Li, T., Zhang, C. y Ogihara, M. (2004). A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression. 20: 2429 – 2437. Liu, J. S. y Logvinenco, T. (2003). Bayesian methods in Biological sequences analysis. In D.J. Balding, M. Bishop, C., Cannings editors, Handbook of Statistical Genetics, Wiley, New York chapter 3(second edition). Long, J. L., Xia, Y., Paccanaro, A., Yu, H. y Gerstein, M. (2005). Assessing the limits of genomic data integration for predicting protein networks. Genome Res. 15: 945-953. Lu, L. J., Xia, Y., Paccanaro, A., Yu, H. y Gerstein, M. (2005). Assessing the limits of genomic data integration for predicting protein networks. Genome Res. 15: 945-953. Madsen, A. L. y Jensen, F. V. (1999). Lazy propagation: A junction tree inference algorithm based or lazy evaluation. Artificial Intelligence 113(1-2): 203- 245. Madsen, A. L., Jensen, F., Kjærulff, U. y Lang, M. (2005). The HUGIN tool for probabilistic graphical models. International Journal of Artifcial Intelligence Tools 14(3): 507-543. Mahamed, G. H. O., Engelbrecht, A. P. y Salman , A. (2005). Dynamic Clustering using PSO with Application in Unsupervised Image Classification. Proc. 5th World Enformatika Conf. (ICCI), Transactions on Engineering, Computing and Technology 9: http://cie.szu.edu.cn/dsp/research/areas/T08/papers/Clustering/. Mahdavi, M. A. y Lin, Y. (2007). False positive reduction in protein-protein interaction predictions using gene ontology annotations. BMC Bioinformatics 8(262): 1471- 2105. Medina, D. (2007). Redes Bayesianas y Mapas Conceptuales en la elaboración de Sistemas de Enseñanza-Aprendizaje Inteligentes. Tesis de Maestría en Ciencia de la Computación, UCLV, Santa Clara, Cuba Tutor: Dra. Zenaida García, Consultante: Chávez, M.C. Medina, D., Martínez, N., García, Z., Chávez, M. C. y García, M. M. (2007). Putting Artificial Intelligence Techniques into a Concept Map to Build Educational Tools. IWINAC 2007, Springer-Verlag Berlin Heidelberg Part II(LNCS 4528): 617–627. Morales, E. (2006). "Aprendizaje Bayesiano." Morell, C., Rodríguez, Y., Matías, H. y Araujo, L. I. (2006). Una metodología para extender el ambiente de aprendizaje automatizado WEKA. Monografía publicada en Biblioteca Samuel Feijó, Santa Clara, UCLV, Cuba. Murphy, K. (2005). Software Packages for Graphical Models / Bayesian Networks http://http.cs.berkeley.edu/~murphyk/Bayes/bnsoft.html. Neapolitan, R. E. (1990). Probabilistic Reasoning in Expert Systems: Theory and Algorithms Wiley-Interscience, New York: 433 páginas. Ochoa, A., Mühlenbein, H. y Soto, M. (2000). A Factorized Distribution Algorithm Using Single Connected Bayesian Networks LNCS 1917, Springer Berlin / Heidelberg: 787- 796. Ochoa, A., Höns, R., Soto, M. y Mühlenbein, H. (2003). A Maximum Entropy Approach to Sampling in EDA – The Single Connected Case. LNCS 2905, Springer Berlin / Heidelberg: 683-690.

edu.red

Referencias Bibliográficas 103 Ordúñez, P., Silva, L. C., Paz, M. y Robles, S. (2001). Prevalence estimates for hypertension in Latin America and the Caribbean: are they useful for surveillance? Panamerican Journal of Public Health 10(4): 226-231. Parzen, E. (1960). Modern Probability Theory and its Applications. La Habana. Instituto Cubano del Libro. Pazani, M. J. (1996). Searching for dependences in Bayesian classifiers. Learning from data: Artificial Intelligence. Proceeding of the Twelft Conference, Horvitz, E. Jensen, F. (eds), Morgan Kaufman: 414-419. Pe’er, D., Regev, A., Elidan, G. y Friedman, N. (2001). Inferring Subnetworks Expression Profiles. Bioinformatics 1(1): 1-9. Pearl, J. L. (1988). Probabilistic Reasoning in Intelligent Systems, Morgan Kaufmann, San Francisco. Pearl, J. L. (1993). Graphical Models, Causality and Intervention. Stat. Sci. 8(3): 266- 273. Peña, D. (2002). Análisis de Datos Multivariantes. MacGraw Hill: 556 páginas. Piñero, P. Y. (2005). Un modelo para el aprendizaje y la clasificación automática basado en técnicas de Softcomputing. Tesis presentada en opción al grado de Doctor en Ciencias Técnicas, Universidad de Ciencias Informáticas, Cuba Tutor: Dra. María Matilde García. Qi, Y. Y., Bar-Joseph, Z. y Klein-Seetharaman, J. (2006). Evaluation of Different Biological Data and Computational Classification Methods for Use in Protein Interaction Prediction. PROTEINS: Structure, Function, and Bioinformatics, Wiley InterScience 63: 490–500. Quinlan, J. R. (1986). Induction of Decision Trees. Mach. Learn. 1(1): 81-106 Quinlan, J. R. (1993). C4.5: Programs for Machine Learning Morgan Kaufmann Series in Machine Learning: 302 páginas. Rebane, G. y Pearl, J. (1988). The recovery of causal poly- trees from statistical data. Int. J. Approxi. Reasoning 2 (3): 341. Rodríguez, A., Mondeja, Y. y Díaz, Y. (2006). Herramienta computacional para hacer inferencias Bayesianas, aplicaciones a Bioinformática Trabajo de Diploma, Tutores: Chávez, M.C., Casas, G., Departamento Ciencia de la Computación, UCLV, Cuba. Ruiz-Shulcloper, J. (2000). Logical Combinatorial Pattern Recognition. Ruiz, R. (2006). Heurísticas de selección de atributos para datos de gran dimensionalidad. Tesis presentada en opción al grado de Doctor en Informática, Universidad de Sevilla, España. Saeys, Y. (2004). Feature Selection for Classification of Nucleic Acid Sequences. PhD Thesis, Promotor: Prof. Dr. Yves Van de Peer, co-promotor: Prof. Dr. ir. Dirk Aeyels, Bioinformatics & Evolutionary Genomics, Ghent University/VIB, Belgium. . Sahami, M. (1996). Learning limited dependence Bayesian Classifiers. In Proceeding of the Second International Conference on Knowledge Discovery and Data Mining: 335- 338. Sánchez, R. (2006). Regularidades algebraicas del código genético: aplicaciones a la evolución molecular. Tesis presentada en opción al grado científico de Doctor en Ciencias Biológicas, Universidad de la Habana, Cuba, Tutor: Dr. Ricardo Grau.

edu.red

Referencias Bibliográficas 104 Sánchez, R. y Grau, R. (2005). A genetic code Boolean structure. II. The genetic information system as a Boolean information system. Bull. Math. Biol. 67(5): 1017- 1029. Sánchez, R., Grau, R. y Morgado, E. (2004). Genetic code boolean algebras. WSEAS transactions on Biology and Biomedicine 1: 190-197. Saucier, R. (2000). Computer Generation of Statistical Distributions. Report of Army Research Laboratory paper ARL-TR-2168. Schachter, R. D. (1990). Evidence absorption and propagation through arc reversals. Uncertainty in Artficial Intelligence, Elsevier Science Publishers B. V. (North- Holland)! Amsterdam: 173-190. Schachter, R. D., Anderson, S. K.,Szolovits, P. (1994). Global Conditioning for Probabilistic Inference in Belief Networks. In Proceedings of the Uncertainty in AI Conference, San Francisco, CA, Morgan Kaufman: 514–522. Scott, M. S. y Barton, G. J. (2007). Probabilistic prediction and ranking of human protein- protein interactions. BMC Bioinformatics 8: 239-260 Shenoy, P. P. (1992). Valuation-based systems for Bayesian decision analysis. Operation Research 40(3): 463-484. Shi, Y. y Eberhart, R. (1998). Parameter Selection in Particle Swarm Optimization. In Proceedings of the Seventh Annual Conference on Evolutionary Programming: 591- 601. Siegel, S. (1987). Diseño Experimental no paramétrico. Edic. Rev.: 346 páginas. Silva, L. C. (1997). Cultura estadística e investigación científica en el campo de la salud: una mirada crítica. Ediciones Díaz de Santos, S.A. Juan Bravo, 3A. 28006 MADRID España: 416 páginas. Silva, L. C. (2009). La investigación biomédica y sus laberintos: en defensa de la racionalidad para la ciencia del Siglo XXI Rústica Hilo: 499 páginas. Silva, L. C. y Muñoz, A. (2000). Debate sobre métodos frecuentistas vs bayesianos. Gaceta Sanitaria 14(6): 482-494. Spirtes, P. y Meek, C. (1995). Learning Bayesian networks with discrete variables from data. In Proceeding of the First International Conference on Knowledge Discovery and Data Mining: 294- 299. Spirtes, P., Glaymour, C., Sheines, R. (1993). Causation, Prediction and Search Springer Verlag, New York. SPSS_Inc (1994). CHAID para SPSS sobre Windows. Técnicas de segmentación basadas en razones de verosimilitud Chi-cuadrado, Release 6.0. User Manual Chicago http://e-spacio.uned.es/fez/eserv.php?pid=bibliuned:Empiria-1998-DB19A741- F905-77F0-77D0-D0DF22E2872F&dsID=PDF. Stuart, J. R. y Norvig, N. (1996). Inteligencia Artificial: Un enfoque Moderno. Prentice Hall, Englewood Cliffs, N.J. Stuart, J. R. y Norvig, N. (2003). Artificial Intelligence: A Modern Approach. Prentice Hall; 2 edition: 1132 páginas. Towell, G., Shavlik, J. y Noordewier, M. (1990). Refinement of Approximate Domain Theories by Knowledge-Based Artificial Neural Networks. In Proceedings of the Eighth National Conference on Artificial Intelligence (AAAI-90). Troyanskaya, O. G., Dolinski, K., Owen, A. B., Altman, R. B. y Botstein, D. (2003). A Bayesian framework for combining heterogeneous data sources for gene function

edu.red

Referencias Bibliográficas 105 prediction (in Saccharomyces cerevisiae). Proceedings of the National Academy of Sciences USA 100(14): 8348-8353. Van Rijsbergen, C. J. (1979). Information Retrieval. London, Butterworths. Varma, S. y Simon, R. (2006). Bias in error estimation when using cross-validation for model selection. BMC Bioinformatics 7(91): http://www.biomedcentral.com/1471- 2105/7/91. Wang, X., J., Y., X., T., W., X. y R, J. (2006). Feature Selection Based on Rough Sets and Particle Swarm Optimization. Pattern Recognition Letter, Elsevier 28(4): 459-471 Wilkinson, D. J. (2007). Bayesian methods in bioinformatics and computational systems biology. Briefings in Bioinformatics 8(2): 109 -116. Wiltaker, J. (1990). Graphical Models in Applied Multivariate Statistical. Wiley Series in Probability & Statistics: 462 páginas. Witten, I. H. y Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques.: 525 páginas. Wu, X., Zhu, L., Guo, J., D., Z. y Lin, K. (2006). Prediction of yeast protein–protein interaction network: insights from the Gene Ontology and annotations. Nucleic Acids Res. 34 (7): 2137–2150. Ye, N. (2003). The Handbook of Data Mining. Lawrence Erlbaum Associates, Publishers Mahwah, New Jersey: Capítulo 5 y 17. Zhang, L., Wong, S., King, O. D. y Roth, F. P. (2004). Predicting co-complexed protein pairs using genomic and proteomic data integration. BMC Bioinformatics 5-38.

edu.red

Producción Científica del autor sobre el tema de la tesis Chávez, M.C. et al. Memorias de Informática 2000, Red Bayesiana de pronóstico de trastornos neuropsíquicos leves. Chávez, M.C. et al. Memorias de Informática 2005, Construcción de árboles filogenéticos a partir de secuencias de ADN y su integración en una red bayesiana. Memorias de la XI Convención Internacional de Informática, INFORMÁTICA 2005, La Habana, Cuba, ISBN: 959-7164-87-6 Chávez, M.C., Cuadrado, S; Casas, G, Martínez, N. (2006). Red bayesiana a partir de factores de riesgo de la hipertensión arterial. Memorias III Simposio Internacional de Hipertensión Arterial 2006. ISBN 925-250-27-4. Grau, R., Chávez, M.C., Sánchez, R., Morgado, E., Casas, G., and Bonet, I. (2006) “Boolean algebraic structures of the genetic code. Possibilities of applications”. Knowledge Discovery and Emergent Complexity in Bioinformatics, pp. 10-21, LNBI 4366. Grau, R., Chávez, M.C., Sánchez, R., Morgado, E., Casas, G., and Bonet, I. (2006) “Boolean algebraic structures of the genetic code. Possibilities of applications”. In Proceedings of Knowledge Discovery and Emergent Complexity in Bioinformatics Workshop, KDEBC’2006, (Westra R. and Tuyls K., ed.), pp. 1-12, University of Ghent, Belgium. Grau R; Galpert D., Chávez, M.C., Sánchez, R., Casas, G., Morgado E., (2006) “Algunas aplicaciones de la estructura booleana del Código Genético”, Revista Cubana de Ciencias Informáticas, Año 1, Vol 1. Chávez, M.C., Casas, G., Grau, R., Sánchez, R. “Learning Bayesian Networks from Data Bases a Protein Mutant”, Proceedings of First International Workshop on Bioinformatics Cuba-Flanders’ 2006, Santa Clara, Feb. 7-10, ISBN:959-250-239-0. Chávez, M.C. “Aplicaciones de la Inteligencia Artificial en la Bioinformática”, 3er Congreso Internacional de Ingeniería en Computación, México, noviembre 2006.

edu.red

Producción científica del autor sobre el tema de la tesis 107 Martínez Sánchez, N; León Espinosa, M; García Valdivia, Z; Ferreira Lorenzo, G; Chávez M.C. (2006). Mapas Conceptuales y Redes Bayesianas: Una perspectiva para los Sistemas de Enseñanza Inteligentes. Memorias UCIENCIA 2006. Habana Cuba, ISBN 959-16-0463- 7.

Chávez, M.C. et al. Byshell, Software de inferencia bayesiana, PREMIO PROVINCIAL DEL XVI FORUM DE CIENCIA Y TÉCNICA OBTENIDO EN EL Año 2006 (Destacado).

Chávez, M.C. Memorias de Informática 2007, BYNET Herramienta computacional para aprendizaje e inferencias de redes bayesianas en aplicaciones Bioinformáticas.

Chávez, M.C. et al. Uso de las redes bayesianas combinado con técnicas estadísticas para el diagnostico de la Hipertensión arterial, CIE 2007. Publicado en Revista Automática, Comunicaciones y Electrónica, XXXVIII (2) pp. 45- 48, 2007.

Medina, D., Martínez, N., García, Z., Chávez, M. C. and García, M.M.: Putting Artificial Intelligence Techniques into a Concept Map to Build Educational Tools. IWINAC 2007, Part II, LNCS 4528, pp. 617–627, 2007, Springer-Verlag Berlin Heidelberg.

Medina, D., Martínez, N., García, Z., Chávez, M.C.,. Redes Bayesianas y Mapas Conceptuales: Una contribución al modelo del estudiante. CIE 2007.

Chávez, M.C., Casas, G., Moreira, J., Falcon, R., Grau, R.: Building Fine Bayesian Networks Aided by PSO-based Feature, Selection, 6th Mexican International Conference on ARTIFICIAL INTELLIGENCE, MICAI 2007 LNAI.

Medina D; Martínez N, García Z, Chávez, M.C. (2007). Using Artificial Intelligence Techniques to Build Adaptative Tutoring Systems. EATIS 2007. ACM Digital Library. Copyright © 2007 by the Association for Computing Machinery, Inc ISBN: 978-1-59593- 598-4.

Chávez, M.C., Casas, G., Grau, R., Sánchez, R. “Learning Bayesian Networks from Data Bases a Protein Mutant”, Proceedings of First International Workshop on Bioinformatics Cuba-Flanders' 2006, Santa Clara, Feb. 7-10, ISBN:959-250-239-0

edu.red

Producción científica del autor sobre el tema de la tesis 108 Chávez, M.C., Silveira, P., Casas, G., Grau, R., Bello, R.: Aprendizaje estructural de redes bayesianas utilizando PSO. Memórias de COMPUMAT 2007

Chávez, M.C. et al. A new Method for Learning Bayesian Networks. Application to Data Splice site Classification, Proceedings of Second Workshop on Bioinformatics Cuba – Flanders, February, 2008.

Chávez, M.C. et al., Uso de redes bayesianas obtenidas mediante Optimización de Enjambre de Partículas para el diagnóstico de la Hipertensión Arterial., Octavo Congreso Internacional de Investigación de Operaciones, Habana y publicado en Revista Investigación Operacional 30 (1) pp. 52-59 (2009).

Chávez, M. C., Casas, G., Bello, R., Grau, R. (2008). "Modelo de red bayesiana para predicción de mutaciones en secuencias de la transcriptasa inversa del VIH usando PSO." Memorias de XIV CONGRESO LATINO-IBEROAMERICANO EN INVESTIGACIÓN DE OPERACIONES (CLAIO). (9 al 12 de septiembre)

Chávez, M. C., Casas, G., Moreira, J., Silveira, P., Moya, I., Bello, R., Grau, R. (2008). "Predicción de mutaciones en secuencias de la proteína transcriptasa inversa del VIH usando nuevos métodos para Aprendizaje Estructural de Redes Bayesianas " Revista Avances en Sistemas e Informática 4 (2) pp. 77-85.

Chávez, M. C., Casas, G., Moreira, J., Bello, R., Grau, R. (2009), “Perfeccionamiento de la matriz de confusión que resulta de un clasificador, en dependencia del dominio de aplicación” Memorias de XIII Congreso de Informática ISBN 978-959-486-010-0. Presentación virtual en evento INFOSALUD (VII Congreso Internacional de Informática en la Salud).

Se tiene además el siguiente registro de software:

Rodríguez L.O., Chávez M. C., Registro de Software número 09358-9358 del Centro Nacional de Derecho de Autor a favor de: Bayshell, Software para crear redes bayesianas e inferir evidencias en la misma, 2002.

edu.red

ANEXOS

Anexo 1. Conceptos básicos

1. Probabilidades.

El cálculo de probabilidades suministra las reglas apropiadas para cuantificar la incertidumbre y constituye la base para la estadística inductiva o inferencial. Para estudiar con mayor profundidad, se puede consultar cualquiera de los libros clásicos de teoría de la probabilidad y estadística, por ejemplo, (DeGroot 1987), (Durrett 1991), (Hogg 1993), (Billingsley 1995). En este anexo se resumirán sólo algunos conceptos básicos que son utilizados y no son definidos en el texto.

Distribución de Probabilidad

Sea {X1, . . . , Xn} un conjunto de variables aleatorias discretas y {x1, . . . , xn} el conjunto de sus posibles realizaciones. Nótese que las variables aleatorias se denotan con mayúsculas y que sus realizaciones se denotan con minúsculas. Por ejemplo, si Xi es una variable binaria, entonces xi puede ser 1 ó 0. Los resultados que siguen son también válidos si las variables son continuas, pero en este caso los símbolos de suma deben sustituirse por integrales.

Distribución de Probabilidad Conjunta (DPC): Dado un n+1 – plus (X1, X2, … , Xn, Y) de variables aleatorias, se llama DPC a la función F [ x1, x2, … , xn, y] = prob [Xi = xi i = 1,…, n, Y = y ]. Dicha probabilidad no puede calcularse en términos de las distribuciones individuales de X1, X2, … , Xn, Y, a menos que haya independencia.

Sea p(x1,…, xn) la función de probabilidad conjunta15 como se describe en A1.1: p (x1,…,xn) = p (X1 = x1,…, X n = xn) (A1.1) Entonces, la función de probabilidad marginal de la i-ésima variable se obtiene mediante la formula:

15 continuas, se llama función de densidad. Por simplicidad, nos referiremos a ambas como función de probabilidad conjunta de las variables.

edu.red

Anexos 110 ? x1,…, xi-1,xi+1,…, x n p (x1, …, x n ) p (x i ) = p (X i = x i ) = (A1.2) La expresión A1.3 se conoce como Teorema de Bayes, en la que p(xi) se conoce como probabilidad “a priori” o inicial de xi, p( xi | x1, …, xk) es la probabilidad “a posteriori” o condicional, p(x1, …, xk | xi) se conoce como verosimilitudes (Castillo et al. 1997). = p(xi) p (x1,…,xk | xi) ? p(xi) p (x1,…,xk | xi) xi p (xi, x1,…,xk) ? p (xi, x1,…,xk) xi p (xi | x1,…,xk) = (A1.3) Precisamente en esta teoría matemática desarrollada por el Reverendo Thomas Bayes16 se basan las RB.

Dependencia e Independencia Condicional

Sean X, Y y Z tres conjuntos disjuntos de variables, entonces X se dice condicionalmente independiente de Y dado Z, si y sólo sí p(x | z, y) = p(x | z), para todos los valores posibles de x, y, z en X, Y y Z; en otro caso X e Y se dicen condicionalmente dependientes dado Z.

Cuando X e Y son condicionalmente independientes dado Z, se escribe I(X, Y | Z). La relación I(X, Y | Z) se denomina relación de independencia condicional. Similarmente, cuando X e Y son condicionalmente dependientes dado Z, se escribe D(X, Y | Z), que se conoce como una relación de dependencia condicional. A veces se escribe I(X, Y | Z)p o D(X, Y | Z)p para indicar que la relación se deriva, o es implicada, por el modelo probabilístico asociado a la probabilidad p (la función de probabilidad conjunta).

La definición de independencia condicional lleva en sí la idea de que una vez que es conocida Z, el conocimiento de Y no altera la probabilidad de X. En otras palabras, si Z ya se conoce, el conocimiento de Y no añade información alguna sobre X (Castillo et al. 1997). 16 Fue uno de los seis primeros reverendos protestantes ordenados en Inglaterra. Comenzó como ayudante de su padre. Abandonó los hábitos en 1752. Publicó su teoría en el artículo titulado: “ Easy towards solving a problem in the doctrine of chances”, publicado por: “The philosophical Transactions of the Royal Society of London”. Las conclusiones presentadas por él fueron aceptadas por Laplace en una memoria de 1781. Fue elegido miembro de la Royal Society en 1742, a pesar de que en aquella época no tenía ninguna publicación en el área de las Matemáticas. De hecho no se publicó nada a su nombre mientras vivió, ya que enviaba sus trabajos de forma anónima.

edu.red

Anexos 111 2. Grafos

Un modelo probabilístico puede definirse usando un grafo que describa las relaciones existentes entre las variables. Supongamos que el conjunto de variables X= {X1, …, Xn} puede relacionarse entre sí. El conjunto anterior puede representarse gráficamente por una colección de nodos o vértices, asociando un nodo a cada elemento de X. Estos nodos pueden conectarse por arcos, indicando las relaciones existentes entre los mismos. Un arco entre Xi yXj se denotará mediante Lij. Así mismo, el conjunto de todos los arcos se denotará por L= {Lij| Xi y Xj están conectados}. Por tanto, un grafo se define mediante el conjunto de nodos: X y las relaciones entre los mismos: L. Los términos grafo y red se emplean como sinónimos en este trabajo.

Un grafo es un par de conjuntos G= (X, L) donde X= {X1,…, Xn} es un conjunto finito de elementos (nodos) y L es un conjunto de arcos, es decir, un subconjunto de pares ordenados de elementos distintos de X. Los arcos de un grafo pueden ser dirigidos o no dirigidos, dependiendo de si se considera o no el orden de los nodos.

Grafos dirigidos y no dirigidos, cíclicos y no cíclicos

Un grafo en el que todos los arcos son dirigidos se denomina grafo dirigido. Un grafo en el que todos sus arcos son no dirigidos se denomina no dirigido. Por tanto, en un grafo dirigido es importante el orden del par de nodos que define cada arco, mientras que en un grafo no dirigido, el orden carece de importancia.

Ciclo: Un ciclo es un camino cerrado en un grafo dirigido.

Grafo dirigido cíclico: Un grafo dirigido se denomina cíclico si contiene al menos un ciclo; en caso contrario se denomina grafo dirigido acíclico (GDA).

Arco dirigido: Dado un grafo G= (X, L), si Lij ?L y Lji ?L, el arco Lij entre los nodos Xi y Xj se denomina dirigido y se denota mediante Xi ? Xj .

Arco no dirigido: Dado un grafo G= (X, L), si Lij ?L y Lji ?L, el arco Lij entre los nodos Xi y Xj se denomina no dirigido y se denota mediante Xi – Xj o Xj – Xi.

edu.red

Anexos 112 Camino: Un camino del nodo Xi al nodo Xj es un sucesión de nodos {Xi1, …, Xir}, comenzando en Xi = Xi1 y finalizando en Xj = Xir , de forma que existe un arco del nodo Xik al nodo Xik+1 , k= 1, … ,r -1. La longitud del camino (r-1), se define como el número de arcos que contiene.

Un camino {Xi1, …, Xir} se dice que es cerrado si el nodo inicial coincide con el final, es decir, Xi1 = Xir.

Padre de un nodo: Cuando existe un arco dirigido, Xi ? Xj, del nodo Xi al nodo Xj, entonces se dice que el nodo Xi es un padre del nodo Xj , y que el nodo Xj es un hijo de Xi . El conjunto de los padres de un nodo Xi se denota por Pai.

Ascendientes de un nodo. Un nodo Xj se denomina ascendiente del nodo Xi si existe un camino de Xj a Xi.

Descendientes de un nodo. Un nodo Xj se denomina descendiente del nodo Xi si existe un camino de Xi a Xj

Grafo moral: El grafo obtenido uniendo primeramente cada par de nodos con hijos comunes en un grafo dirigido y luego se elimina la direccionalidad de las conexiones, se llama grafo moral.

Cuerda: Una cuerda es una conexión entre dos nodos de un lazo que no está contenida en el lazo. Los lazos de longitud tres no pueden contener una cuerda y se llaman triángulos.

Grafo triangulado: Un grafo no dirigido se dice que es triangulado o cordal, si cada lazo de longitud cuatro o más tiene al menos una cuerda.

Subconjunto completo de un grafo: Un subconjunto de nodos S de un grafo G, se dice que es completo si existe una conexión entre cada par de los nodos en S.

Un conjunto completo de nodos C, es un conglomerado si es máximo, esto es, no es un subconjunto propio de otro conjunto completo.

Grafo agrupado asociado con un grafo: Dado un grafo G = (X, L) y un conjunto de grupos de nodos de X, C = {C1,…, Cm}, tal que X = C1 ? …? Cm, entonces el grafo G’ = (C, L’) se llama grafo agrupado (Acid y De Campos 2003) de G si L’ contiene solamente

edu.red

Anexos 113 conexiones entre grupos que contienen nodos comunes, esto es, (Ci, Cj) ? L’ ? Ci n Cj ? Ø.

Grafos simples y poliárboles: Un árbol dirigido se denomina un árbol simple si cada nodo tiene como máximo un padre; en caso contrario se denomina un poliárbol.

Nodo de aristas convergentes o cabeza-cabeza: Dado un grafo dirigido y un camino no dirigido (. . . – U – A – V – . . .), el nodo A se denomina un nodo de aristas convergentes en este camino si las dos aristas del camino convergen a este nodo en el grafo dirigido, es decir, si el grafo dirigido contiene las aristas U ? A y V ? A).

Grafo de conglomerados: Un grafo agrupado se llama grafo de conglomerados si sus grupos son los conglomerados del grafo asociado.

Árbol de unión: Un grafo de conglomerados se llama un árbol de unión si es un árbol y si cada nodo que pertenece a dos grupos también pertenece a cada grupo en el camino entre ellos.

Familia de un nodo: El conjunto formado por un nodo y sus padres, se llama la familia del nodo.

Árbol de familias: Un árbol de familias de un grafo dirigido D, es un árbol de unión de algún grafo no dirigido G, en el cual la familia de cada nodo está contenida al menos en un grupo.

Variables sumidero: Variables sin sucesores que no forman parte de la evidencia. Resultan irrelevantes para el cálculo de las distribuciones a posteriori.

d-separación (Jensen y Nielsen 2007): dos variables distintas A y B en una red causal están d-separadas (d para grafos dirigidos) si para todos los caminos entre A y B, hay una variable intermedia V (distinta de A y B) tal que se cumple una de las dos proposiciones siguientes: la conexión es serial o divergente y V está instanciada o la conexión es convergente y ni V ni ninguno de sus descendientes ha recibido evidencia. Si A y B no están d -separadas se llaman d-conectadas

edu.red

Anexos 114 Cuando Z d-separa X e Y en G, se escribe I(X, Y | Z)G para indicar que la relación de independencia viene dada por el grafo G; en caso contrario, se escribe D(X, Y | Z)G para indicar que X e Y son condicionalmente dependientes dado Z en el grafo G.

3. Términos biológicos.

La genómica es la disciplina que estudia el genoma de los seres vivos, en particular los genes que los componen y sus funciones.

El genoma es todo el material genético contenido en los cromosomas de un organismo en particular.

En un gen, la secuencia de los nucleótidos a lo largo de la cadena de ADN define una proteína, que un organismo es capaz de sintetizar o "expresar" en uno o varios momentos de su vida, usando la información de dicha secuencia. La relación entre la secuencia de nucleótidos y la secuencia de aminoácidos de la proteína es determinada por un mecanismo celular de traducción, conocido de forma general como código genético. A, T, G, y C son las "letras" del código genético y representan las bases nitrogenadas adenina, timina, guanina y citosina, respectivamente. En cada gen se combinan las cuatro bases en diversas formas, para crear palabras de tres letras (codón) que especifican qué aminoácido es necesario en cada paso de la elaboración de la proteína. Las alrededor de treinta mil proteínas diferentes en el cuerpo humano están hechas de veinte aminoácidos diferentes, y una molécula de ADN debe especificar la secuencia en que se unan dichos aminoácidos. Aquí se sitúa la proteómica, como disciplina que correlaciona las proteínas con sus genes, estudia el conjunto completo de proteínas que se pueden obtener de un genoma.

edu.red

Anexos 115 Anexo 2. Comparación de paquetes de software de Modelos Gráficos: RB Src = si no contiene código fuente incluido, N, sino el lenguaje

API = Si N no se puede integrar a nuestro código, debe ejecutar desde ejecutable

Exec = Sistema operativo: W = Windows (95/98/NT), U = Unix, M = Mac, or – = otro compilador.

edu.red

Anexos 116

edu.red

Anexos 117

edu.red

Anexos 118 Anexo 3. Clasificación de Software de Redes Bayesianas y Clasificadores Bayesianos en propietario y libre

Software propietario

AgenaRisk, herramienta visual que combina RB y simulación estadística, libre un mes para evaluación.

Analytica, basado en diagramas de influencia, ambiente visual para crear y analizar modelos probabilisticos. (Win/Mac).

AT-Sigma Data Chopper, para analizar y buscar relaciones causales en bases de datos.

BayesiaLab, herramienta de RB para aprendizaje supervisado y no supervisado, y una herramienta de análisis.

Bayesware Discovery 1.0, herramienta de modelación automática de RB desde datos buscando el modelo más probable.

BNet, incluye BNet.Builder para crear una RB, entrar información y obtener resultados y BNet.EngineKit para incorporar la tecnología RC (Redes de Creencia) a nuestras aplicaciones

DXpress, herramienta sobre Windows para crear y compilar RB.

Ergo™, Editor y resolvedor de RB (Win, Mac, demos disponibles).

Flint, combina RB, factores de certeza, y lógica difusa con un ambiente de programación lógica basado en reglas.

Hugin, colección completa de herramientas de razonamiento en RB.

KnowledgeMiner, usa redes neuronales autoorganizadas para descubrir la estructura del problema (Mac).

Netica, Herramienta de RB (Win 95-NT, demo disponible).

PrecisionTree, una macro de Microsoft Excel para crear árboles y diagramas de influencia.

edu.red

Anexos 119 Software Libre

Bayda 1.0, sistema experto para ecocardiografía.

Bayesian belief network software, de J. Cheng, incluye un PowerConstructor: Sistema eficiente para aprendizaje estructural y paramétrico de RB. Constantemente actualizado desde 1997 y un PowerPredictor: Programa de Minería de datos para modelación, clasificación y predicción de datos.

Bayesian Logistic Regression Software, regresión logística bayesiana a gran escala (Win y Linux).

Bayesian Network tools in Java (BNJ), colección de código Fuentes de herramientas en java para aprendizaje y razonamiento probabilístico (Universidad del estado de Kansas, KDD Lab.).

FDEP, induce dependencia funcional desde una entrada de datos.

GeNle, ambiente de modelos de decisión mediante diagramas de influencia y RB (Win, tiene sobre 2000 usuarios).

JavaBayes, software de edición y uso de RB.

jBNC, conjunto de programas en Java para entrenamiento, prueba y aplicación de clasificadores de RB.

JNCC, Naïve Credal Classifier 2, herramienta en java que hace una extensión al Naïve bayes con resultados robustos aún cuando se tengan pequeños conjuntos de datos y/o información incompleta.

MSBN: Microsoft Belief Network Tools, herramienta para crear y evaluar RC bayesianas (libre para investigaciones no comerciales).

PNL, librería de código Fuentes de RB.

Pulcinella, herramienta para propagar incertidumbre basada en cálculos locales (Lisp).

edu.red

120 Anexos

Anexo 4. Técnicas y Herramientas de Genómica y Proteómica (Gibas y Per 2001)

edu.red

Anexos 121

edu.red

* ? =?? – Eij) Anexos 122 Anexo 5. La Prueba Chi-cuadrado y la técnica de CHAID Suponga que se trabaja con dos variables aleatorias discretas (nominales u ordinales) con las cuales se ha realizado una tabla de contingencia (m x n), esto es una tabla de doble entrada con las frecuencias de casos con cada par de valores de las variables que se asocian. De acuerdo a la definición de independencia de la Teoría de Probabilidades (Parzen 1960), las dos variables serán independientes si la probabilidad de que un caso quede en una celda dada de la tabla es igual al producto de las probabilidades marginales de las dos categorías que definen la celda. Tal probabilidad define las frecuencias esperadas en una tabla bajo el supuesto de independencia y ello debe manifestarse aproximadamente así con las frecuencias observadas.

Para construir un estadístico que mide la independencia precisamente se calculan las diferencias entre las frecuencias esperadas y las observadas y ello se realiza para cada celda de la tabla. Si las variables son independientes, la probabilidad de que una observación caiga en la celda (i, j) se estima por la expresión: cantidad en fila i cantidad en columna j N N P( fila = i y columna = j) = (A5.1) Para obtener la frecuencia esperada Eijse multiplica la probabilidad anterior por el volumen de la muestra según expresión: (cantidad en fila i)*(cantidad en columna j) N Eij = (A5.2) Las frecuencias esperadas se comparan con las frecuencias observadas Oij en la tabla.

Las diferencias Eij-Oij se llaman residuales, se elevan al cuadrado para evitar la compensación de diferencias positivas y negativas y se dividen por las frecuencias esperadas Eij para establecer magnitudes relativas. Resulta en el estadístico de la expresión: Eij (Oij m n

i=1 j=1 2 2 (A5.3) Si la hipótesis fundamental de independencia es cierta, este estadístico tiene distribución aproximadamente igual a la Chi-cuadrado, con grados de libertad determinado por el

edu.red

Anexos 123 producto (m-1)*(n-1), donde m y n son el número de filas y columnas de la tabla. La idea de los grados de libertad es aquí clara pues este es el número de celdas de la tabla que “podrían llenarse libremente” si están fijados los totales marginales de filas y columnas.

El valor del estadístico anterior, conocido como Chi-cuadrado de Pearson, se compara con los valores teóricos de la distribución Chi-cuadrado, lo que determina la significación del valor y por tanto un criterio para rechazar o no la hipótesis de independencia.

La prueba Chi-cuadrado tiene realmente muchas limitaciones y los principales detractores llegan incluso a decir que el único caso en que él puede ser aplicado con fiabilidad, es el caso de las tablas 2×2. Esta restricción ha sido ampliamente discutida, pero en esencia es cierto que las tablas de contingencia no pueden tener dimensiones demasiado grandes pues ello puede redundar en frecuencias esperadas excesivamente bajas que exacerbarían el valor del estadístico ?2. Si se quiere eliminar frecuencias esperadas bajas, se debe reducir las dimensiones de la tabla aunque esto haga que se pierda información (Jobson 1992).

Algoritmo de detección de Interacciones basado en Chi-cuadrado (CHAID)

El método CHAID surge como una técnica de segmentación. Su propósito es segmentar o dividir una población en dos o más grupos en las categorías del mejor predictor de una variable dependiente. El algoritmo se basa en la prueba Chi-cuadrado para seleccionar la mejor división en cada paso, la división se realiza hasta que no haya más variables predictoras significativas o hasta que se satisfaga algún otro criterio de parada, relacionado por ejemplo con el número mínimo de casos en un nodo para analizar su divisibilidad.

En un estudio real existen frecuentemente múltiples variables (predictivas o independientes) que pueden tener asociación con una variable dependiente y además efectos de interacción entre ellas sobre dicha variable dependiente. La presentación de muchas tablas de contingencia, no siempre refleja las asociaciones esenciales, y usualmente se convierte en un listado inútil de tablas que desinforman en lugar de orientar, aún cuando se utilicen estadísticos (como la V de Cramer) para ordenar la fortaleza de las asociaciones. Un estudio multivariado trata de enfocar el efecto posible de todas las variables conjuntamente incluyendo sus posibles correlaciones; pero puede ser particularmente interesante, si considera además la posibilidad de la interacción entre las variables

edu.red

Anexos 124 predictivas sobre la variable dependiente. Cuando el número de variables crece, el conjunto de las posibles interacciones crece en demasía, resulta prácticamente imposible analizarlas todas y por ello adquiere especial interés una técnica de detección automática de interacciones fundamentales. CHAID es exactamente eso (SPSS_Inc 1994).

Un análisis de CHAID automático comienza dividiendo la población total en dos o más subgrupos distintos basado en las categorías del mejor predictor de la variable dependiente (en principio por el estadígrafo Chi-cuadrado de Pearson). Divide cada uno de estos subgrupos en pequeños sub-subgrupos y así sucesivamente. CHAID visualiza los resultados de la segmentación en forma de un diagrama tipo árbol cuyas ramas (nodos) corresponden a los grupos (subgrupos conformados en cada nivel). Entiéndase en este caso que está seleccionando sucesivamente las variables más significativamente asociadas con la clase y las variables que deben ser fuentes de estratificaciones sucesivas.

Algoritmo CHAID

Estado 1.Fusionar (Merging) Para cada predictor X1, …, Xk, … XN CHAID une categorías no significativas por los siguientes pasos:

1. Formar todas las crostabulaciones con la variable dependiente (a full two-way).

2. Para cada par de categorías aplicar la prueba Chi-cuadrado para probar dependencia de dos categorías y la variable dependiente (Usar todas las categorías de la variable dependiente).

3. Calcular el p-value para cada par. Si hay dos pares no significativos unirlos e ir al paso 4. Si todos los pares se mantienen significativos ir al paso 5.

4. En el caso que se tienen más de dos categorías, probar si es posible aplicar el proceso de dividir categorías a una previamente mezclada. Si el valor del estadístico Chi- cuadrado es significativo dividir la categoría de las demás. Si es posible dividir más de una categoría, dividir la de mayor significación. Retornar al paso 3.

5. Mezclar cualesquiera categorías que tienen menos observaciones que el mínimo tamaño de grupo fijado (después de dividir) con la categoría más similar.

edu.red

Anexos 125 Estado 2. Dividir (Splitting)

Para variables predictoras con p-value significativos, dividir el grupo por el predictor de menor p-value. Cada una de las categorías mezcladas se convierte en un nuevo subgrupo del grupo padre. Si no hay p-value significativo, no dividir el grupo.

Estado 3.Parada (Stopping)

Retornar al estado 1 para analizar el próximo subgrupo que contiene más observaciones que lo especificado por el mínimo tamaño de subgrupo (después de dividir). Parar cuando todos los subgrupos han sido analizados o cuando estos contienen pocos casos.

edu.red

Anexos 126 Anexo 6. Características de las bases de datos del repositorio de la UCIML utilizadas para validar los algoritmos de aprendizaje estructural de Redes Bayesianas

edu.red

Anexos 127 Anexo 7. Red Bayesiana de clasificación de donors con el algoritmo ByNet. Ejemplos de propagación de evidencias con el software ELVIRA. Cuando aún no se tienen evidencias la red se muestra según Figura 7.1. Figura 7.1. RB obtenida con el algoritmo ByNet para donors sin evidencias.

Tabla 7.1. Propagación de evidencias de donors. Figura 7.2. RB para donors con las evidencias de la Tabla 7.1.

edu.red

128 Anexos

Tabla 7.2. Propagación de evidencias de no presencia de donors Figura 7.3. RB para las evidencias de la Tabla 7.2

edu.red

Anexos 129 Anexo 8. Red Bayesiana de clasificación de acceptors con el algoritmo ByNet. Ejemplos de propagación de evidencias con el software ELVIRA. Cuando aún no se tienen evidencias la red se muestra como en la Figura 8.1. Figura 8.1. RB obtenida con el algoritmo ByNet para acceptors sin evidencias

Tabla 8.1. Propagación de evidencias de acceptors Tabla 8.2. Propagación de evidencias de no acceptors Tabla 8.3. Propagación de evidencias de no acceptors

edu.red

Anexos 130 Figura 8.2. RB para las evidencias de la Tabla 8.1. Figura 8.3. RB para las evidencias de la Tabla 8.2.

edu.red

Anexos 131 Anexo 9. Red Bayesiana de diagnóstico de la HTA con el algoritmo BayesChaid. Ejemplos de propagación de evidencias con el software ELVIRA En las Figuras 9.1 y 9.2 se muestra la RB que se obtuvo mediante el algoritmo BayesChaid, cuando el número de padres es dos, el número de niveles en la red es tres, y sub- poblaciones hasta 30 casos. Figura 9.1. RB obtenida con el algoritmo BayesChaid Figura 9.2. RB inicial sin evidencias

edu.red

Anexos 132 En la Figura 9.3 se muestra la RB ante un caso con la presión sistólica al minuto uno alta, lo que hace que se eleve la probabilidad de hipertenso a 0.97, también aumenta la probabilidad de la presión sistólica al segundo minuto, así como las presiones diastólicas y PAM. Figura 9.3. RB cuando la presión sistólica al minuto uno es muy alta

Es posible incluir varias evidencias simultáneamente, por ejemplo para un paciente diabético con alto índice de masa corporal, se incrementa la probabilidad de tener HTA a 0.94

edu.red

133 Anexos

Anexo 10. Diagrama de relación de Clases

edu.red

Anexos 134 Anexo 11. Sintaxis de los ficheros de datos para Weka y comandos para ejecutar Weka parallel El formato ARFF está compuesto por una estructura claramente diferenciada en tres partes:

1. Cabecera. Se define el nombre de la relación. Su formato es el siguiente: @relation < nombre-de-la-relación>

Donde < nombre-de-la-relación> es de tipo String. Si dicho nombre contiene algún espacio será necesario ponerlo entre comillas.

2. Declaraciones de atributos. En esta sección se declaran los atributos junto a su tipo. @attribute < nombre-del-atributo> < tipo> Donde < nombre-del-atributo> es de tipo String teniendo las mismas restricciones que el caso anterior.

Weka acepta diversos tipos de datos, estos son:

a) NUMERIC Expresa números reales.

b) INTEGER Expresa números enteros.

c) DATE Expresa fechas, para ello este tipo debe ir precedido de una etiqueta de formato entre comillas. La etiqueta de formato está compuesta por caracteres separadores (guiones

y/o espacios) y unidades de tiempo: dd Día, MM Mes, yyyy Año, HH Horas, mm Minutos, ss Segundos.

d) STRING Expresa cadenas de texto, con las restricciones del tipo String

e) ENUMERADO El identificador de este tipo consiste en expresar entre llaves y separados por comas los posibles valores que puede tomar el atributo. Por ejemplo, si tenemos un atributo que indica el tiempo se define:

@attribute tiempo {soleado,lluvioso,nublado}

3. Sección de datos. Declaramos los datos que componen la relación, los atributos se separan entre comas y las relaciones con saltos de línea.

@data 4,3.2

edu.red

Anexos 135 Si algún dato es desconocido se representa con un símbolo de cerrar interrogación (“?"). Además es posible añadir comentarios con el símbolo “ %”, que indica que desde ese símbolo hasta el final de la línea es todo un comentario. Los comentarios pueden situarse en cualquier lugar del fichero.

Ejemplo de un fichero ARFF: prueba.arff

% Archivo de prueba para Weka.

@relation prueba @attribute nombre STRING @attribute ojo_izquierdo {Bien,Mal} @attribute dimension NUMERIC @attribute fecha_analisis DATE "dd-MM-yyyy HH:mm"

@data Antonio,Bien,38.43,"12-04-2003 12:23" ’Maria Jose’,?,34.53,"14-05-2003 13:45" Juan,?,?,"03-04-2003 11:03" Otro formato es un fichero tipo CSV. En la primera línea del fichero se ubica el nombre de las variables separadas por coma y a continuación las instancias de casos.

Ejemplo: Fichero prueba2.csv

nombre, ojo_izquierdo, dimension, fecha_analisis Antonio,Bien,38.43,"12-04-2003 12:23" ’Maria Jose’,?,34.53,"14-05-2003 13:45" Si se resuelven problemas de aprendizaje supervisado, se debe indicar en el fichero la variable dependiente o clase al final.

Ejemplos:

Fichero prueba1.arff

@relation prueba1 @attribute V1 NUMERIC @attribute V2 NUMERIC @attribute V3 NUMERIC @attribute clase {0, 1} @data 163,0,0,0 8.67,0,5,1

edu.red

Anexos 136 Fichero prueba1.csv

V1,V2,V3,V4,Clase 0.163,0,0,0,0 8.67,0,1,5,1

Sintaxis de ficheros para ejecutar Weka parallel

Comando que ejecuta weka parallel cliente.bat:

java -Xmx290m -classpath new-weka-paralell.jar weka.gui.GUIChooser 6050

La sentencia indica memoria mínima 290MB, la clase que se debe ejecutar en Weka y el puerto que se utiliza para la conexión.

Comando que ejecuta weka parallel server.bat:

java -Xmx290m -classpath new-weka-paralell.jar weka.core.DistributedServer 6050

Con esta sentencia se indica la memoria virtual mínima y el puerto por el que la terminal donde se ejecute debe establecer la conexión con el cliente que la solicita.

Partes: 1, 2, 3, 4, 5

Página anterior

Volver al principio del trabajo

Página siguiente