Diseño de Conjuntos moleculares balanceados para su aplicación en la teoría QSPR-QSAR

Partes: 1, 2, 3, 4, 5, 6, 7

Capítulo 1.

Introducción

1. La Teoría QSAR/QSPR

El continuo interés por lograr predecir las distintas propiedades fisicoquímicas, biológicas y farmacológicas en sistemas reales conduce indudablemente a la aplicación de métodos derivados de la Mecánica Cuántica, con el fin de representar adecuadamente el fenómeno involucrado. Esto se traduce en la necesidad de tener en cuenta todas las interacciones presentes en el sistema físico de partículas, lo cual hoy por hoy parece ser una difícil tarea, en vista de que los cálculos mecanocuánticos actuales sólo pueden resolverse con buena aproximación cuando el sistema involucra unos pocos átomos no-interactuantes. Si bien el uso de aproximaciones matemáticas permite resolver el problema de partículas interrelacionadas entre sí, debido a la incertidumbre de dicho método, no siempre será posible justificar la calidad de los resultados encontrados. Por otro lado, los cálculos mecanocuánticos ayudan a la comprensión de los aspectos mecanísticos que originan a las propiedades en cuestión, pero no resultan la herramienta adecuada para el estudio del efecto que tiene la estructura molecular sobre las propiedades macroscópicas de las sustancias químicas.

La Teoría QSAR/QSPR, (Relaciones Cuantitativas Estructura-Actividad/Estructura-Propiedad) ofrece una alternativa a la hora de calcular las propiedades de una colección de moléculas1. Cuando nos detenemos a observar un conjunto de estructuras moleculares junto con sus propiedades experimentales medidas, la pregunta inmediata que surge es ¿existirá una correlación directa entre la propiedad y la estructura de estas sustancias? La respuesta es afirmativa, y es la hipótesis principal de la Teoría QSAR/QSPR. La misma es una hipótesis matemática fundamentada en el hecho de que la estructura de una molécula es la principal responsable de sus propiedades químicas, fisicoquímicas, biológicas o farmacológicas2-4. Quizás una de las premisas fundamentales de la teoría es el Principio de Similaridad Estructural, que establece que estructuras moleculares similares poseen propiedades similares, mientras que estructuras moleculares diferentes manifiestan propiedades diferentes5. Si bien es conocido desde hace mucho tiempo el hecho de que distintas sustancias tienen diferentes efectos biológicos, el avance en la determinación de estructuras permitió establecer relaciones estructura-actividad (SAR), las cuales evidencian ciertos efectos en las actividades biológicas a partir del cambio en la estructura química de un determinado compuesto6.

Los modelos QSAR también nacen en el campo de la Toxicología. De hecho, los intentos por cuantificar relaciones entre la estructura química y la toxicidad aguda han sido parte de la literatura toxicológica por más de 100 años. Las primeras evidencias se remontan al año 1863, cuando en la defensa de su tesis en la University of Strasbourg, Strasbourg, Francia, J. Cros notó las relaciones existentes entre la toxicidad de alcoholes alifáticos primarios y su solubilidad en agua7. Esta relación demuestra el axioma central del modelado de la relación estructura-toxicidad. Por lo tanto, existen interrelaciones entre estructura, propiedades y toxicidad. Casi un siglo después Corwin Hansch et al8. publicó su famoso artículo sobre la actividad biológica de grupos de compuestos congéneres y con ello sentó la base para el desarrollo de la actual Teoría QSAR/QSPR.

La Teoría QSAR/QSPR busca cuantificar las relaciones SAR a través del desarrollo de modelos, y combina métodos de la Estadística Matemática con la Química Computacional. Tales modelos se vuelven vitales a la hora de predecir el valor de la propiedad de una sustancia si ésta es desconocida por resultar difícil de adquirir, sea por su inestabilidad, toxicidad, costo económico, etc. Así también la teoría ha sido ampliamente utilizada para el diseño y optimización de compuestos tipo-droga, y hasta para inferir resultados sobre mecanismos de reacción de compuestos orgánicos.

Con el fin de establecer un modelo de cuantificación apropiado, un requisito indispensable es disponer de un conjunto de moléculas para las cuales se conocen perfectamente los valores experimentales de la propiedad estudiada. El diseño de un modelo implica su calibración y posterior validación. La calibración establece con exactitud la correspondencia entre la estructura y la propiedad analizada a través de la creación del modelo y determinación de los parámetros ajustables de los que depende. La función matemática (lineal/no-lineal) que cuantifica la relación estructura-propiedad se elige de forma arbitraria y la simplificación del modelo matemático dependerá de aquella expresión que determine las mejores predicciones. La validación certifica la veracidad del modelo obtenido, es decir, verifica si posee o no poder predictivo sobre moléculas no contempladas en el ajuste del modelo, y que también deben poseer información conocida de la propiedad experimental.

Pero, ¿cómo representar fielmente las relaciones entre la estructura y la propiedad? Desafortunadamente no existe una vinculación directa entre ambas características, por lo cual la teoría se vale de distintos índices numéricos que codifican la información estructural y ayudan a establecer las relaciones buscadas, estos índices son los denominados descriptores moleculares.

2. Los Descriptores Moleculares

Más estrictamente, un descriptor molecular es el resultado final de una lógica y de un procedimiento matemático que transforma la información química codificada dentro de una representación simbólica de una molécula en un número útil o el resultado de algún experimento estandarizado9. Estas variables pueden ser teóricas o experimentales, pueden describir a la molécula como un todo (descriptores globales) o solo representar un fragmento presente en ella (descriptores fragmentos). Generalmente, un gran número de descriptores moleculares surgen de diferentes teorías, tales como la Teoría de Orbitales Moleculares, la Teoría de Grafos, La Mecánica Cuántica, entre otras.

Ahora bien, puede suceder que una combinación apropiada de números describa adecuadamente la propiedad en cuestión, pero que no dejen de ser eso, solo "simples números". Así, es requisito fundamental que los descriptores posean algún tipo interpretación química, y si ese no fuera el caso, que sí puedan derivarse en base a la estructura. Un ejemplo clásico de descriptor lo constituye el número de átomos de una especie química en la molécula, como la cantidad de átomos de carbono en una familia de bencenos o él numero de átomos de cloro en especies clorofluorocarbonadas; la cantidad de enlaces C-C puede ser otro ejemplo de descriptor. Otros descriptores relacionados con propiedades fisicoquímicas pueden ser el índice de refracción, las entalpías de vaporización (?Hv), el coeficiente de partición octanol/agua (Kow), los puntos de ebullición, los volúmenes molares, etc.

A continuación describiremos los rasgos más relevantes de algunas de las familias de descriptores moleculares más frecuentemente utilizados en la representación de la estructura molecular. No profundizaremos en detalle en cada una de ellas debido a lo amplio y extenso del tema.

2.1. Descriptores de la Teoría de Grafos Química

La Teoría de Grafos10 es una rama de la Matemática Discreta relacionada a la topología y a la combinatoria, y está vinculada con la manera en que los objetos están conectados. Un grafo es una representación bidimensional de la molécula. Estructuralmente, un grafo puede verse como un conjunto de vértices o nodos, unidos por medio de aristas o arcos, en la representación molecular los nodos serían los átomos y las aristas los enlaces. Por ejemplo en el benceno los átomos C son los nodos y los enlaces C-C las aristas.

Los descriptores que se obtienen a partir de la Teoría de Grafos sólo proporcionan información de constitución y conectividad y, por tanto, no pueden discernir isómeros de una misma molécula. Se pueden definir diversos tipos de índices topológicos, entre los más conocidos encontramos:

Indice de Wiener (W)11

edu.red donde edu.red representa la distancia topológica entre los vértices edu.red y edu.red si se considera el camino de longitud más corta. La longitud u orden del camino es el número de aristas que lo componen.

Indice de conectividad molecular (??12

edu.red donde edu.red es el grado de degeneración del vértice edu.red y representa el número de vértices adyacentes al mismo.

2.2. Indices de la Teoría de la Información

A menudo sucede que gran cantidad de los índices topológicos calculados poseen alto grado de degeneración. El concepto de degeneración de un descriptor molecular se aplica a aquellos descriptores que posean el mismo valor numérico para estructuras diferentes. La Teoría de la Información13 ofrece una alternativa para disminuir el grado de degeneración de los descriptores topológicos. La aplicación se basa en darle a la molécula representada por un grafo una cierta distribución de probabilidad respecto a la complejidad que posea, y desde allí aplicar la Teoría de la Información.

2.3. Descriptores para Interacciones Químicas

Estos descriptores caracterizan las interacciones químicas14 que participan en la molécula tanto a nivel global como local, es decir, refiriéndose a un sector de la molécula o tratándola como un todo. Estas interacciones implican cambios topológicos, geométricos y electrónicos, por lo cual los descriptores suelen combinar algunos de estos aspectos.

2.4. Descriptores del Dragon

El programa Dragon15 ofrece la posibilidad de calcular un gran número de descriptores moleculares agrupados en diferentes familias. A su vez, la lista de descriptores proporcionados puede ser organizada como cerodimensionales (0D), unidimensionales (1D), bidimensionales (2D), y tridimensionales (3D); para simplificar la descripción utilizaremos esta última clasificación. Los descriptores calculados en este trabajo son obtenidos con la aplicación de este programa y son cantidades teórico-definidas; no se utilizan descriptores experimentales.

Descriptores 0D: describen solamente la constitución de la molécula, pero no dicen nada sobre la conformación ni tipo de conectividad presente. Los más simples son el número de átomos de un determinado tipo, el número de enlaces y el peso molecular, entre otros.

Descriptores 1D: describen fragmentos de las moléculas constituidos por el agrupamiento de sus átomos constituyentes.

Descriptores 2D: utilizan una función de autocorrelación bidimensional que contiene la topología del grafo, y además representa la distribución de una propiedad atómica determinada en la molécula. La propiedad atómica con la que se pesa/pondera al descriptor considera los átomos presentes en la molécula a través de la electronegatividad, masa atómica, polarizabilidad atómica, estado electrotopológico o volumen de Van der Waals, con lo cual se pueden seleccionar aquellos átomos que dan mayor peso a la variable. Estos descriptores tienen en cuenta las interacciones inter/intra-moleculares.

Descriptores 3D: esta clase tiene en cuenta los aspectos conformacionales de la estructura molecular, considerando de esta manera las propiedades estereoquímicas de las moléculas. Para su cálculo se utilizan estructuras moleculares previamente optimizadas con métodos convenientes, tales como el Método de Campos de Fuerza de la Mecánica Molecular MM+, en combinación con métodos derivados de la Mecánica Cuántica, sean ab initio o Métodos de la Teoría de Orbitales Moleculares Semiempírica. Entre estos descriptores citamos las cargas atómicas, la energía del orbital molecular más alto ocupado ( edu.red ) y la energía del orbital molecular más bajo desocupado ( edu.red ), entre otros. Un descriptor debe cumplir con un conjunto de características tales como:

i. Fácil cálculo
ii. Invarianza respecto de la traslación y la rotación
iii. Invarianza respecto a la numeración de los átomos
iv. Buena correlación con la propiedad estudiada
v. Bajo grado de correlación con otros descriptores

3. Sobre el Diseño del Modelo

Durante el diseño de los modelos QSAR/QSPR resulta de fundamental importancia seleccionar los descriptores moleculares más influyentes para predecir la propiedad analizada. Existen dos métodos generales para la selección de descriptores moleculares. El primero de ellos consiste en valerse de la experiencia, de las características observables y perceptibles de las moléculas de estudio, y del posible mecanismo subyacente. Por ejemplo, la fotohidrólisis es una de las vías principales para la fotólisis de compuestos aromáticos hidrogenados, así varios descriptores químicocuánticos que caracterizan los enlaces C-X fueron calculados y empleados para el desarrollo de modelos QSAR que describan los rendimientos cuánticos de fotólisis de compuestos halogenados16, 17. Por otro lado, el segundo método se basa en realizar un estudio combinatorial de los descriptores estructurales y seleccionar aquellos que sean más predictivos.

La ortogonalización de los descriptores moleculares busca facilitar el desarrollo de un modelo óptimo, reduciendo así el número de descriptores objeto de análisis y la dimensión del problema matemático a tratar, por la eliminación de la intercorrelación existente entre dichas variables. Sin embargo, se ha demostrado que la calidad estadística obtenida con el uso de variables no-ortogonales no difiere de la hallada con variables ortogonales18.

Las moléculas estándares que constituyen el llamado conjunto de calibración servirán como "moléculas objetivo", pues representan moléculas a las cuales las moléculas de validación deberán imitar, copiar, seguir, aproximarse y lo más deseable, superar en calidad predictiva19. Es preciso que las moléculas del conjunto de validación posean estructuras congruentes con las del conjunto de calibración, pues ello influirá directamente en la calidad predictiva del modelo. Una determinada selección de moléculas de calibración y de validación en conjuntos moleculares homogéneos/heterogéneos influenciará considerablemente en los resultados finales que se obtengan con posterioridad con los modelos QSAR/QSPR, y el modelo establecido tendrá algún significado estadístico en la medida que se utilicen conjuntos adecuados.

Finalmente, es esperable que un modelo sencillo que presente error de predicción de la propiedad durante la calibración supere el proceso de validación, en comparación de uno que sea más exacto y sin error de calibración, pues este último se ajusta excesivamente o "memoriza" al conjunto de calibración y de esta manera es incapaz de predecir la propiedad en cuestión durante la validación. Además, se busca que el error cometido por el modelo en la etapa de calibración sea similar al encontrado durante la etapa de su validación. Si esto se cumple, el modelo resulta más general y predictivo sobre los datos, y se asigna igual preferencia al ajuste de los datos en los conjuntos de calibración y validación.

4. Objetivo Específicos

El objetivo principal del presente Trabajo de Tesina consiste en estudiar diferentes técnicas estadísticas de clasificación molecular que permitan el armado de conjuntos moleculares de calibración y validación balanceados, es decir, conjuntos que posean similares errores de predicción de la propiedad considerada. Se busca así seleccionar la metodología que mejor funcione para poder implementarla en el trabajo de investigación QSAR/QSPR cotidiano. Para ello, se abordan las técnicas: Análisis de Agrupamiento Jerárquico20, Análisis de Componentes Principales21, Análisis Discriminante Lineal22, Análisis de Agrupamiento K-Medias23 y K-Vecinos Más Cercanos24. La formulación de relaciones estructura-actividad/propiedad está basada en la técnica del Análisis de Regresión Lineal, y considera los aspectos multidimensionales de la estructura por medio del análisis de más de mil descriptores moleculares calculados con el programa Dragon. Se compara la bondad de estos métodos clasificadores de objetos sobre tres bases de datos diferentes, a saber: solubilidades acuosas de 166 compuestos orgánicos heterogéneos tipo-droga25, 128 actividades anti-VIH-1 de compuestos heterocíclicos26-29, y 470 toxicidades acuosas en compuestos alifáticos heterogéneos30.

5. Breve reseña

Resulta crucial establecer una adecuada clasificación molecular en todo estudio QSAR/QSPR. En el capítulo 2 estudiamos distintos métodos de reconocimiento de patrones que permiten armar conjuntos moleculares balanceados que conducen a los mejores resultados. Sin embargo, puede suceder que un método determinado pueda clasificar a las moléculas mejor en una propiedad determinada que en otra. En el Capítulo 3, presentamos las tres propiedades macroscópicas ensayadas, junto con una breve descripción de los sistemas elegidos. Los resultados obtenidos se presentan en el Capítulo 4, mientras que las conclusiones principales del trabajo aparecen en el Capítulo 5.

El siguiente esquema resume cada uno de los pasos a seguir en un estudio QSAR/QSPR.

edu.red

Referencias

1. Hansch, C., Leo, A., Exploring QSAR. Fundamentals and Applications in Chemistry and Biology. American Chemical Society: Washington, D. C., 1995.

2. King, R. B., Chemical Applications of Topology and Graph Theory. Studies in Physical and Theoretical Chemistry. Elsevier: Amsterdam, 1983.

3. Sexton, W. A., Chemical Constitution and Biological Activity. D. Van Nostrand: New York, 1950.

4. Hansch, C., Fujita, T., A quantitative approach to biochemical structure-activity relationships. Acc. Chem. Res. 1969, 2, 232.

5. Johnson, A. M., Maggiora, G. M. , Concepts and Applications of Molecular Similarity. John Willey & Sons: New York, 1990.

6. Carbó-Dorca, R., Robert, D., Amat, L. I., Jirones, X., Besalú, E., Molecular Quantum Similarity in QSAR and Drug Research. Springer-Verlag: Berlin, 2000.

7. Cros, J. Action de l"alcool amylique sur l"organisme. University of Strasbourg, Strasbourg, France, 1863.

8. Hansch, C., Fujita, T., A Method for the Correlation of Biological Activity and Chemical Structure. J. Am. Chem. Soc 1964, 86, 1616.

9. Todeschini, R., Consonni, V., Molecular Descriptors for Chemoinformatics. WILEY-VCH: Weinheim, 2009.

10. Trinajstic, N., Chemical Graph Theory. CRC Press: Boca Raton, FL, 1992.

11. Hosoya, H., A Newly Proposed Quantity Characterizing the Topological Nature of Structural Isomers of Saturated Hydrocarbons. Bull. Chem. Soc. Jpn 1971, 44, 2332.

12. Randic, M., Characterization of molecular branching. J. Am. Chem. Soc 1975, 97, 6609.

13. Jayalakshmi, R., Natarajan, R., Vivekanandan, M., Descriptors based on information theory for numerical characterization of DNA sequence. Current Science 2010, 99, (3), 370.

14. Estrada, E., Montero, L. A., Bond order weighted graphs in molecules as structure-property indices. Molec. Engineering 1993, 2, 363.

15. Milano Chemometrics and QSAR Research Group. http://michem.disat.unimib.it/chm.

16. Chen, J. W., Quan, X., Schramm, K-W., Kettrup, A., Yang. F. L., Quantitative structure-property relationships (QSPRs) on direct photolysis of PCDDs. Chemosphere 2000, 45, (2), 151.

17. Free, S. M., Wilson, J. M., A mathematical contribution to structure-activity studies. J Med Chem 1964, 7, (4), 395.

18. Fernandez, F. M., Duchowicz P. R. , Castro E. A. , About Orthogonal Descriptors in QSPR/QSAR Theories. Commun. Math. Comput. Chem. (MATCH) 2004, 51, 39.

19. Randic, M., Resolution of Ambiguities in Structure-Property Studies by Use of Orthogonal Descriptorst. J. Chem. Inf. Comput. Sci 1991, 31, 311.

20. Matlab 7.0, The MathWorks, Inc. http://www.mathworks.com

21. Niemi, G. J., Practical Applications of Quantitative Structure-Activity Relationships (QSAR) in Environmental Chemistry and Toxicology. Kluwer Academic Publishing: Dordrecht, 1990.

22. Hubert, C. J., Applied Discriminant Analysis. Wiley-Interscienc: New York, 1994.

23. Kowalski, R. B., Wold, S., Pattern recognition in chemistry

In Handbook of statistics, North Holland Publishing Company: Amsterdam, 1982; p 673.

24. Cover, T., Hart, P., Nearest neighbor pattern classification. In IEEE Transactions on Information Theory, 1967; Vol. 13, p 21.

25. Duchowicz, P. R., Talevi, A., Bruno-Blanch, L. E., Castro, E. A., New QSPR study for the prediction of aqueous solubility of drug-like compounds. Bioorganic & Medicinal Chemistry 2008, 16, 7944.

26. Seto, M., Aramaki, Y., Imoto, H., Aikawa, K., Oda, T., Kanzaki, N., Iizawa, Y., Baba, M., Shiraishi, M., Orally Active CCR5 Antagonists as Anti-HIV-1 Agents 2: Synthesis and Biological Activities of Anilide Derivatives Containing a Pyridine N-Oxide Moiety. Chem. Pharm. Bull. 2004, 52, (7), 818.

27. Imamura, S., Ichikawa, T., Nishikawa, Y., Kanzaki, N., Takashima, K., Niwa, S., Iizawa, Y., Baba, M., Sugihara, Y., Discovery of a Piperidine-4-carboxamide CCR5 Antagonist (TAK-220) with Highly Potent Anti-HIV-1 Activity. J. Med. Chem. 2006, 49, 2784.

28. Imamura, S., Ishihara, Y., Hattori, T., Kurasawa, O., Matsushita, Y., Sugihara, Y., Kanzaki, N., Iizawa, Y., Baba, M., Hashiguchi, S., CCR5 Antagonists as Anti-HIV-1 Agents. 1. Synthesis and Biological Evaluation of 5-Oxopyrrolidine-3-carboxamide Derivatives. Chem. Pharm. Bull. 2004, 52, (1), 63.

29. Imamura, S., Nishikawa, Y., Ichikawa, T., Hattori, T., Matsushita, Y., Hashiguachi, S., Kanzaki, N., Iizawa, Y., Baba, M., Susihara, Y., CCR5 antagonists as anti-HIV-1 agents. Part 3: Synthesis and biological evaluation of piperidine-4-carboxamide derivatives. Bioorganic & Medicinal Chemistry 2005, 13, 397.

30. Duchowicz, P. R., Ocsachoque, M. A., Quantitative Structure-Toxicity Models for Heterogeneous Aliphatic Compounds. QSAR & Combinatorial Science 2009, 28, (3), 281.

Capítulo 2.

Técnicas de Clasificación

1. El Problema de la Clasificación

La clasificación es el proceso de división de un conjunto de objetos en grupos mutuamente excluyentes, de manera tal que los miembros de cada grupo se hallen lo más cerca posible el uno al otro, y los de diferentes grupos lo más lejos posible1. La cercanía se mide respecto a una determinada variable que forma la predicción. No existe en general una regla que permita definir la mejor aproximación a un problema de clasificación en particular2, 3, pero la selección adecuada de los descriptores moleculares clasificadores resulta ser esencial en la Teoría QSAR/QSPR.

Una de las estrategias más comunes para el desarrollo de relaciones cuantitativas específicas está basada en la clasificación de moléculas según su funcionalidad química, lo cual resulta sencillo desde el punto de vista práctico. Sin embargo, puede suceder que dos moléculas determinadas tengan los mismos grupos funcionales y distinto valor en sus propiedades macroscópicas, lo que hace este esquema de clasificación un tanto problemático.

Entre las técnicas de clasificación de datos más difundidas en la literatura encontramos al Análisis de Componentes Principales (PCA)4, Análisis Discriminante (DA)5, Análisis de Agrupamiento (CA)6, y otras pertenecientes al campo de las Redes Neuronales (ANN), como pueden ser las Redes Neuronales de Retro-Propagación (BPNN)7 o los Mapas de Auto-Organización de Kohonen (SOM)8. Por su parte, la Teoría de la Lógica Difusa (FLT)9, 10 representa una herramienta alternativa del área de la Inteligencia Artificial aplicable a problemas de clasificación, y que consigue modelar razonablemente conceptos difusos relacionados a la incerteza o imprecisión. Dentro de dicha teoría se han reportado los algoritmos de Agrupamiento Difuso (FC)11 y de Partición Difusa Adaptativa (AFP)12.

El diseño de conjuntos moleculares balanceados posee gran interés como paso previo al tratamiento racional QSAR/QSPR. En este capítulo describimos de manera general los métodos estudiados/aplicados en el presente Trabajo de Tesina, a saber: Análisis de Agrupamiento Jerárquico, Análisis de Componentes Principales, Análisis Discriminante Lineal, Análisis de Agrupamiento K-Medias y K-Vecinos Más Cercanos. Si bien no se han explorado totalmente las numerosas técnicas que hoy por hoy aparecen en la literatura, tratamos de considerar el mayor número de ellas.

2. Análisis de Componentes Principales (PCA)

Uno de los problemas inherentes en Estadística Multivariable es la dificultad de visualización de datos que dependen de gran cantidad de variables. Si bien un simple gráfico en dos o tres dimensiones facilita la interpretación, la existencia de cuatro o más variables dificulta la visualización de las relaciones existentes. Afortunadamente, en un conjunto de datos con muchas variables los grupos de variables a menudo se mueven juntos. Una consecuencia de ello es que más de una variable puede ser la fuerza impulsora que gobierna el comportamiento del sistema, con lo cual estamos frente a un problema de redundancia de información.

Es posible simplificar la dimensión del problema matemático mediante la sustitución de un grupo de variables correlacionadas (X) por una única nueva variable (PC). El Análisis de Componentes Principales es un método cuantitativamente riguroso basado en la correlación de los datos, utilizado para llevar a cabo esta simplificación. El método genera un nuevo conjunto de variables, llamadas componentes principales (PC). Cada uno de los PC es una combinación lineal de las D variables originales, y que resultan ortogonales entre sí, con lo cual no existe información redundante:

edu.red (1)

En esta ecuación, PCi es el i-ésimo componente principal, y edu.red es el coeficiente de la j-ésima variable para ese componente.

El número de componentes principales coincide con el número de variables independientes utilizadas para derivarlos. En la práctica, para un problema particular se selecciona el número de PC de manera que la suma de las varianzas de los primeros PC exceda el 80% de la varianza total de los datos originales. Cada componente principal se extrae en orden decreciente de varianza explicada por tal componente en el conjunto de datos. Una vez que se ha eliminado la redundancia, sólo los primeros componentes son requeridos para describir la mayor parte de la información contenida en el conjunto original de datos. Este enfoque ayuda a separar los componentes importantes de aquellos que sólo expliquen una variabilidad al azar.

Existen infinitas formas de construir una base ortogonal para el espacio de los datos, por lo cual: ¿qué hay de especial en el conjunto de componentes principales? Aquí, el primer componente principal (PC1) es un eje sencillo cuya dirección es convenientemente elegida en el espacio. Cuando se proyecta cada observación sobre el eje PC1, los valores resultantes forman una nueva variable denominada coordenada PC1, cuya varianza es máxima respecto de toda posible elección del primer eje. El segundo componente (PC2) es otro eje perpendicular al primero; si se proyectan las observaciones sobre este eje se genera una nueva variable denominada coordenada PC2, cuya varianza es la máxima entre todas las opciones posibles del segundo eje. Los componentes restantes se toman ortogonales a los previamente seleccionados y describen la varianza máxima de los datos.

Ventajas y desventajas del método PCA

Ventajas:

Puede constituir un camino para determinar la dimensionalidad efectiva de un conjunto de datos.
Al ser los PC ortogonales entre sí, las comparaciones hechas entre objetos con respecto a sus coordenadas en un dado PCi no están correlacionadas con comparaciones que estén basadas en las coordenadas en otro PCj.

Desventajas

Es frecuente no encontrar interpretación alguna de los componentes obtenidos. Cada componente es una combinación lineal de variables que reflejan distintas características de las observaciones.
Los componentes principales no son invariantes a transformaciones lineales de las variables. Por lo tanto, las componentes se modifican si las variables se estandarizan.

3. Análisis Discriminante Lineal (LDA)

En el Análisis Discriminante, el punto de partida es un conjunto de objetos clasificados en dos o más grupos. De estos objetos, se conocen sus variables atributo. Al reconocer de antemano la existencia de estos grupos, parece lógico pensar que existen variables cuyo valor numérico determina la pertenencia a uno u otro grupo. Los objetivos del Análisis Discriminante son:

i. La identificación de variables atributo que mejor discriminen entre los grupos y la evaluación del poder discriminante de cada una de ellas.

ii. Asignar, con un cierto grado de riesgo, un objeto del que no se conoce su clasificación y del que se conocen las variables atributo.

Como técnica de análisis de dependencia, LDA permite obtener un modelo lineal de causalidad en el cual la variable dependiente puede ser métrica o categórica, y las variables independientes son métricas, continuas y determinan a qué grupo pertenecen los objetos. Se trata de encontrar relaciones lineales entre las variables que mejor discriminen a los grupos iniciales de objetos. Además, se trata de definir una regla de decisión que asigne un nuevo objeto a uno de los grupos prefijados. Para más información sobre el método LDA y la manera con que asignan objetos, ver Apéndice, sección I.

Ventajas y desventajas del método LDA

Ventajas:

La técnica LDA es fácil de aplicar.
Las probabilidades de pertenencia a un grupo dado son fáciles de obtener.
Está disponible en muchos programas estadísticos.

Desventajas:

Las suposiciones de normalidad e igualdad de varianzas no siempre se cumplen en las variables del modelo.
La clasificación de nuevas observaciones no es muy eficiente a medida que se incrementa el número de variables del modelo. Se acostumbra a seleccionar variables antes de aplicar LDA.
Requiere que se especifiquen los grupos del conjunto de entrenamiento del modelo con clases prefijadas.

4. Análisis de Agrupamiento

El análisis de agrupamiento, también llamado análisis de segmentación o análisis de taxonómico, crea grupos o agrupaciones de datos. Estas agrupaciones están formadas de tal manera que los objetos en el mismo grupo son muy similares y los objetos en grupos diferentes son muy distintos. Podemos encontrar distintos tipos de análisis, divididos generalmente en dos grandes categorías:

Jerárquicos: construyen una jerarquía de agrupamiento
Particionamiento: el número de grupos se determina de antemano y las observaciones se asignan a tales grupos según su proximidad o cercanía.

4.1. Análisis de Agrupamiento Jerárquico (HCA)

Agrupa los objetos mediante la creación de un árbol jerárquico o dendrograma. El árbol no es simplemente un conjunto de grupos, sino más bien una jerarquía de múltiples niveles, donde los agrupamientos en un nivel dado aparecen unidos como agrupamientos del nivel siguiente. Ello permite decidir el nivel o grado de agrupamiento que resulta más apropiado para la aplicación particular. Uno de los pasos más importantes del HCA lo constituye la búsqueda de similitud o disimilitud entre los objetos en el conjunto de datos, por lo cual existe una gran variedad de formas de calcular esta medida. Para llevar a cabo un HCA se sigue el procedimiento a continuación:

a. Encontrar la similitud o disimilitud entre los objetos

En este paso se calcula la distancia entre cada par de objetos para un método de medida definido. En el caso de un conjunto de datos formado por M objetos, existen edu.red pares posibles, y las distancias generadas para dichos pares conducen a una matriz distancia o disimilaridad. La medida de distancia entre objetos más comúnmente utilizada es la distancia Euclídea. Sin embargo, uno podría utilizar otras opciones como: distancia Euclídea estandarizada, distancia Mahalanobis, distancia Manhattan, o distancia Minkowski, entre otras, más información en Apéndice, sección II. A veces sucede que en el conjunto de datos utilizados las variables poseen diferentes escalas o diferentes unidades. Estas discrepancias pueden influir directamente a la hora de realizar el cálculo de proximidad, por lo cual como paso previo al cálculo de la matriz distancia es posible estandarizar/normalizar los valores de los datos a fin de utilizar la misma escala proporcional.

b. Agrupar los objetos en el dendrograma

En este paso se enlazan los objetos o agrupamientos más próximos entre sí, mediante una función de enlace o vinculación. La función de vinculación utiliza la información de las distancias obtenidas en el paso anterior, y asocia inicialmente los pares de objetos más próximos en grupos binarios. A continuación, vincula estos grupos con otros objetos más lejanos para crear agrupamientos binarios de mayor tamaño, hasta que todos los objetos del conjunto de datos original forman el árbol jerárquico. Existen diferentes métodos de vinculación disponibles, los métodos difieren entre sí en la forma de medir la distancia entre agrupamientos. Por ejemplo, el método de Vinculación Individual utiliza la distancia más cercana entre pares de objetos o grupos; otro caso como el método de Vinculación Promedio utiliza la distancia promedio entre todos los elementos en cualquiera de las dos agrupaciones, etc. Más detalles se presentan en el Apéndice, sección III.

c. Especificar el grado de agrupamiento buscado

En general, pueden crearse agrupamientos de datos si se detectan agrupaciones naturales en el árbol jerárquico, o sino a través de realizar un corte horizontal arbitrario del dendrograma. En este último caso, se busca que el corte horizontal intersecte las líneas verticales del gráfico, y esto genera el número de grupos dependiente de la posición del corte.

d.1. Representación gráfica de HCA: dendrograma

La jerarquía creada a través de la generación de agrupamientos binarios mediante las funciones de vinculación puede ser fácilmente entendida cuando se visualiza gráficamente. El dendrograma resultante tiene la siguiente estructura:

edu.red

En la figura, los números a lo largo del eje horizontal representan los índices de los objetos en el conjunto de datos original, mientras que el eje vertical mide la distancia. La vinculación entre objetos o grupos se representa como líneas en forma de U invertidas. La altura de U señala la distancia entre grupos.

d.2. Verificación de disimilaridad

En un árbol de agrupamiento jerárquico, cualquier par de objetos en el conjunto de datos original está eventualmente vinculado en algún nivel. La altura de la vinculación en el dendrograma representa la distancia entre ambos objetos, y es conocida como la distancia cofenética para el par de objetos. Una manera de medir la bondad o precisión del árbol de agrupamiento es comparar las distancias cofenéticas con las distancias generadas en la primera etapa del análisis (punto a). Si el agrupamiento es válido, la vinculación de objetos en el árbol jerárquico debería tener una fuerte correlación con la distancia entre objetos. El coeficiente de correlación cofenético compara ambas distancias, y un valor cercano al valor uno sugiere que la solución de agrupamiento encontrada representa a los datos.

d.3. Verificación de consistencia

Una manera de detectar divisiones naturales en los datos es comparar las alturas de cada enlace en el árbol jerárquico con las alturas de los enlaces vecinos que se encuentran por debajo. Un enlace que está aproximadamente a la misma altura que un enlace que se encuentra por debajo sugiere que no hay divisiones claras entre los objetos unidos. Se dice que estas vinculaciones presentan un alto nivel de consistencia, pues la distancia entre los objetos que se han unido es semejante a la distancia entre los objetos que contienen. Por otro lado, un enlace cuya altura difiere notablemente de la altura de los enlaces inferiores indica que los objetos unidos a ese nivel están mucho más separados entre sí de lo que estaban sus componentes cuando se los unió. En el análisis, los vínculos inconsistentes pueden indicar los bordes de una división natural en el conjunto de datos, pues detectan regiones donde la similaridad entre objetos o grupos cambia abruptamente.

edu.red

El coeficiente de inconsistencia compara la altura de un vínculo en un árbol jerárquico con el promedio de las alturas de los vínculos que están por debajo de él y permite cuantificar la inconsistencia relativa. Los vínculos que unen distintos agrupamientos tienen altos coeficientes de inconsistencia, a diferencia de aquellos que unen grupos indistintos, que tienen un bajo valor del coeficiente.

Ventajas y desventajas del método HCA

Ventajas:

La medida de la distancia es el único factor que determina al agrupamiento.
No es un método iterativo, por lo que no se necesitan soluciones iniciales y no existen problemas de optimización que conduzcan a mínimos locales.
No presenta una sensibilidad apreciable en presencia de ruidos (objetos que posean cierta ambigüedad respecto al agrupamiento al cual pertenecen)13.

Desventajas:

Resulta ser un método gráfico, más que analítico. El número de agrupamientos óptimo (K) se obtiene por inspección del gráfico.
Requiere que se especifiquen los grupos del conjunto de entrenamiento del modelo.
La interpretación de los resultados de HCA es menos directa. Es necesario armar el dendrograma y recién ahí se podrá saber la clasificación asignada a cada objeto.

4.2. Análisis de Agrupamiento K-Medias

En este método de agrupamiento se particionan los datos de una matriz X en K grupos mutuamente excluyentes. A diferencia de la técnica HCA, el método K-Medias opera sobre observaciones reales en lugar de considerar medidas de disimilitud entre objetos o grupos, y crea por tanto un único nivel de agrupaciones14. Esto hace que K-Medias sea a menudo más conveniente que el agrupamiento jerárquico si se aplica para la clasificación de gran cantidad de datos.

Partes: 1, 2, 3, 4, 5, 6, 7

Página siguiente