La aplicación de la teoría QSPR-QSAR en la predicción de actividades biológicas (página 2)
Enviado por Eduardo Alberto Castro
En este método de agrupamiento se particionan los datos de una matriz X en K grupos mutuamente excluyentes. A diferencia de la técnica HCA, el método K-Medias opera sobre observaciones reales en lugar de considerar medidas de disimilitud entre objetos o grupos, y crea por tanto un único nivel de agrupaciones14. Esto hace que K-Medias sea a menudo más conveniente que el agrupamiento jerárquico si se aplica para la clasificación de gran cantidad de datos.
El K-Medias trata cada observación como un objeto que tiene una ubicación en el espacio. Luego de realizar un proceso iterativo, identifica una partición tal que los objetos dentro de cada agrupamiento estén ubicados lo más cerca posible el uno al otro, y también lo más lejos posible a otros grupos. Por supuesto, es posible elegir la medida de la distancia y ello dependerá del tipo de datos que se analicen. Cada agrupamiento de la partición se caracteriza por sus objetos miembros y por su centroide o centro. El centroide para cada agrupamiento es el punto en el que la suma de las distancias de todos los objetos en tal agrupamiento se hace mínima. El tipo de distancia utilizada en forma predeterminada suele ser Euclídea, pero al igual que en HCA es posible escoger distintas opciones. El cálculo de los centroides proporciona diferente resultado dependiente del tipo de medida de distancia empleado. La ubicación final del centroide se determina a través de un proceso iterativo, que generalmente converge a una solución que es mínimo local en la primera etapa del cálculo, pero en la segunda etapa en la mayoría de los casos alcanza un mínimo global, para más información ver Apéndice, sección IV.
Para tener una idea de la calidad de las agrupaciones generadas por K-Medias, se define el valor silueta para cada objeto i (s(i)). El valor silueta representa una medida de la similitud que tiene un objeto situado en un grupo dado respecto a otros pertenecientes a grupos vecinos. Su valor numérico cae en el intervalo [-1 1]. Un valor silueta cercano a 1 indica la buena asignación del objeto al agrupamiento, en tanto la disminución del indicador empeora la calidad de la asignación. Si s(i) es cercano a cero, resulta indistinto asignar el punto i a un grupo o a otro grupo vecino. Si s(i) es negativo, sugiere que el objeto se asignó a un grupo erróneo. La definición del parámetro silueta se presenta en el Apéndice, sección V.
A partir de la comparación de la magnitud de los valores silueta, es posible ajustar el valor de K a utilizarse en la clasificación. El siguiente gráfico silueta constituye un ejemplo.
El gráfico representa el número de agrupamientos producidos en función del paramétro silueta. Se aprecia que muchos de los objetos en el tercer agrupamiento tienen s(i)>0.6, por lo que dicho grupo está bien resuelto de las agrupaciones vecinas. No obstante, se puede observar que el primer grupo tiene muchos objetos con valores menores de s(i), y que el segundo grupo presenta inclusive unos pocos valores negativos del parámetro, lo que manifiesta que estos dos agrupamientos no están bien separados.
Ventajas y desventajas del método K-Medias
Ventajas:
K-Medias puede producir agrupamientos más estrictos que HCA, especialmente si los agrupamientos son de tipo globular15.
K-Medias es un método más analítico, si se compara con HCA.
La determinación de los centroides es automática y no se requiere información adicional sobre las clases presentes en el conjunto original de datos.
Desventajas:
Fijar el número de agrupamientos puede hacer dificultosa la selección del valor óptimo de la variable K.
Alta sensibilidad a la posición inicial de los centroides de las agrupaciones en el método iterativo. Con el fin de obtener una solución óptima, se deben realizar varias pruebas con distintas posiciones iniciales de los centroides.
No funciona bien con agrupamientos no-globulares.
4.3. Análisis K-Vecinos Más Cercanos (K-NN)
El análisis de vecinos más cercanos consiste en estimar el valor de un dato desconocido a partir de las características del dato más próximo, según una medida de similitud o distancia16. Este análisis tiene propiedades estadísticas bien establecidas y es fácil de aplicar a sistemas reales17. El método de vecinos más cercanos se puede extender si se utiliza no uno, sino un conjunto de datos más cercanos para predecir el valor del nuevo dato, en lo que se conoce como K-vecinos más cercanos.
El K-NN asume que todos los objetos pertenecen a un conjunto de calibración predeterminado, y mediante una medida de distancia elegida se determinan los K objetos más cercanos al objeto que se desea clasificar. Se trata de un algoritmo de aprendizaje inductivo supervisado, en el que se genera una función que asigna las entradas a salidas deseadas. Esto significa que el conjunto de calibración incluye, además de las propiedades multidimensionales utilizadas para el reconocimiento (variables atributo), clasificadores para predecir la clase a la que pertenecen los datos de entrada. Por ejemplo, un objeto es asignado a una determinada clase si ésta es la clase más frecuente entre los K objetos de entrenamiento más cercanos.
Distancias entre el punto a clasificar al conjunto de entrenamiento. El punto rojo representa el punto a clasificar.
Generación de un conjunto cuando k=5.
El método K-NN supone que los vecinos más cercanos conducen a la mejor clasificación, esto se hace al considerar todas las variables atributos. El problema de tal suposición es que es posible que existan varios atributos irrelevantes que dominen sobre la clasificación, así los atributos relevantes pierden peso de decisión y la clasificación es incorrecta. Para resolver la cuestión, es posible asignar un peso a las distancias de cada atributo, que transfiere mayor importancia a los atributos más relevantes. Otra posibilidad es tratar de asignar los pesos con objetos conocidos de entrenamiento.
La mejor elección del valor de K depende fundamentalmente de los datos; generalmente los valores altos de K reducen el efecto de ruido en la clasificación, pero crean límites entre clases parecidas. El valor más adecuado de esta variable corresponde a aquel que provea la mejor clasificación de los datos para la aplicación concreta. La exactitud del algoritmo K-NN puede ser profundamente degradada por la presencia de ruido o características irrelevantes, por lo que todos los datos deben estar apropiadamente estandarizados.
Ventajas y desventajas
Ventajas:
Simple uso. Como existe un conjunto de entrenamiento con la clasificación de objetos preestablecida en el mismo, la clasificación de nuevos objetos sólo implica la medida de la distancia entre objetos y no requiere de un cálculo iterativo.
Debido a que se cuenta con más información inicial, la clasificación debería ser más exacta, si las clases iniciales impuestas son las correctas.
Desventajas:
Requiere información adicional, pues es necesaria la asignación de un conjunto de entrenamiento, para lo cual se debe conocer de antemano las clases iniciales; esta información no siempre está disponible.
Referencias
1. Mazzatorta, P., Benfenati, E., Lorenzini, P., Vighi, M., QSAR in Ecotoxicity: An Overview of Modern Classification Techniques. J. Chem. Inf. Comput. Sci. 2004, 44, 105.
2. Brown, R. D., Martin, Y. C., Use of Structure-Activity Data To Compare Structure-Based Clustering Methods and Descriptors for Use in Compound Selection. J. Chem. Inf. Comput. Sci. 1996, 39, (3), 572.
3. Marengo, E. T., R, Linear Discriminant Hierarchical Clustering: A modeling and Cross-Validate Divisive Clustering Method. Chemom. Intell. Lab. Sys. 1993, 19, 43.
4. Niemi, G. J., Practical Applications of Quantitative Structure-Activity Relationships (QSAR) in Environmental Chemistry and Toxicology. Kluwer Academic Publishing: Dordrecht, 1990.
5. Hubert, C. J., Applied Discriminant Analysis. Wiley-Interscienc: New York, 1994.
6. L. Kaufman, R., P. J., Finding Groups in Data: An Introduction to Cluster Analysis. Wiley-Interscience: New York, 1990.
7. Hecht-Nielsen, R., Proceedings of the International Joint Conference on Neural Networks. Washington D. C., 1989; p 531.
8. Kohonen, T., Self-Organizing Maps. Springer-Verlag: Berlin, 2001.
9. H.T. Nguyen, W., E. A., A First Course in Fuzzy Logic. Third Edition (2006) ed.; Chapman&Hall/CRC.
10. Zadeh, L. A., Classification and Clustering. Academic Press: New York, 1977.
11. F. Ros, A., K., Pintore, M., Chrétien, J. R., Hybrid Systems for Virtual Screening: Interest of Fuzzy Clustering Applied to Olfaction. SAR&QSAR Environ. Res. 2000, 11, 281.
12. Ros, F., Taboureau, O., Pintore, M., Chrétien, J. R., Development of predictive models by adaptive fuzzy partitioning. Application to compounds active on the central nervous system. Chemom. Intel. Lab. Syst. 2003, 67, 29.
13. Iye, M., Hopfinger,A. J., Treating Chemical Diversity in QSAR Analysis: Modeling Diverse HIV-1 Integrase Inhibitors Using 4D Fingerprints. J. Chem. Inf. Model. 2007, 47, 1945.
14. Matlab 7.0, The MathWorks, Inc. http://www.mathworks.com
15. Han, J., Kamber, M., Pei, J., In Data Mining: Concepts and Techniques, 2006.
16. Cover, T., Hart, P., Nearest neighbor pattern classification. In IEEE Transactions on Information Theory, 1967; Vol. 13, p 21.
17. D. Aha, D. K., M. Albert, Instance-based learning "Instance-based learning algorithms". In Machine Learning, 1991; p 37.
Capítulo 3. Conjuntos Moleculares Ensayados
1. Agentes Anti-VIH-1 Basados en la Inhibición del Receptor CCR5
A pesar del gran esfuerzo mundial para prevenir la propagación del Virus de la Inmunodeficiencia Humana de tipo 1 (VIH-1), el número de personas infectadas con VIH-1 sigue en ascenso1. El desarrollo de la terapia antirretroviral combinada con los inhibidores de la Transcriptasa Reversa del VIH-1 y los inhibidores de la Proteasa han proporcionado un método clínicamente eficaz de supresión de la carga viral en individuos infectados con VIH-1, lo cual se ha traducido en una drástica reducción de la morbilidad y la mortalidad causada por el virus2. A pesar de ello, las terapias no son curativas3 y el VIH se replica nuevamente cuando el tratamiento cesa4. Por otro lado, la complejidad de los regímenes de dosificación y la corriente toxicidad del tratamiento anti-VIH-1 hacen que sea difícil mantener al paciente en conformidad5. Además, la resistencia a los fármacos disponibles en la actualidad se hace cada vez mayor6. Por tanto, es necesario identificar nuevas clases de agentes con mayor eficiencia y menor grado de toxicidad.
El reciente avance en el conocimiento de los receptores de quimiocina que funcionan como co-receptores del VIH-1 proporciona una nueva estrategia para controlar la infección con VIH-1. La CC quimiocina receptora de tipo 5, conocida como CCR5, es una proteína que en los humanos está codificada por el gen CCR5. El VIH comúnmente utiliza CCR5 como co-receptor para entrar en sus células de destino. Varios receptores de quimiocinas pueden funcionar como co-receptores virales, pero es probable que CCR5 sea el co-receptor fisiológicamente más importante durante la infección natural. En las personas infectadas con VIH, CCR5 es la especie que predomina durante las primeras etapas de la infección viral7. Ello sugiere que estos co-receptores pueden tener una ventaja selectiva durante la transmisión o la fase aguda de esta enfermedad.
La remoción del par de base 32 en el gen CCR5 (CCR5?32) genera un receptor no funcional, y los individuos CCR5?32 homocigotas son altamente resistentes a la infección por VIH-1; este defecto no representa un problema de salud significativo8-10. Por su parte, las personas infectadas heterocigotas para el gen CCR5 defectuoso han retrasado la progresión de la enfermedad11. Estas observaciones sugieren que los antagonistas del CCR5, que funcionan como inhibidores de la entrada del VIH-1, podrían ser importantes agentes terapéuticos.
En la Tabla 1 se presentan los 128 compuestos orgánicos heterocíclicos12-15 antagonistas del CCR5 analizados, junto con sus actividades anti-VIH-1 experimentales. La propiedad se reporta como y se relaciona con la concentración requerida para alcanzar el 50% de inhibición de CCR5.
2. Solubilidades Acuosas de Compuestos Orgánicos Tipo-Droga
El agua es el constituyente principal de todo ser vivo: sin ir más lejos, el cuerpo humano posee aproximadamente el 60% de su masa en forma de agua16. El comportamiento de una droga en agua gobierna ciertas cuestiones de captación, movimiento y eliminación dentro del cuerpo (por ejemplo, la absorción oral y el movimiento a través de la sangre), que afectan indudablemente las etapas de desarrollo de fármacos en la industria, así como las simples cuestiones de "selección de alto rendimiento" de drogas en las primeras etapas de su investigación. En el pasado, los programas de desarrollo de drogas se basaban exclusivamente en su actividad biológica y su potencial como fármaco, sin tener en cuenta aspectos relacionados a la toxicidad y fármacocinética, por tanto en las últimas etapas el proceso fracasaba17.
Hoy día se sabe que diversas propiedades fisicoquímicas están directamente relacionadas con la biodisponibilidad del fármaco. Por muchas razones, la solubilidad acuosa, junto con la acidez, la lipoficidad y la estabilidad, se destaca entre las propiedades fisicoquímicas claves en la búsqueda de compuestos con posible actividad farmacológica, entre las cuales se citan:
Tabla. 1. Estructuras moleculares y experimentales para antagonistas de CCR5.
Página anterior | Volver al principio del trabajo | Página siguiente |