Extracción de características para el análisis de imágenes de mamografías (página 2)
Enviado por Alejandro Díaz Sotolongo
Una técnica algo más precisa consiste en la umbralización local. En este caso el valor de umbral se determina localmente para ventanas de menor tamaño, en función de los niveles de gris de los píxeles contenidos en la ventana. Una de las técnicas más populares para la segmentación de algunos tipos de tumor, caracterizados por presentar un nivel de brillo superior al del tejido circundante, es la conocida como region growing. La idea básica de este algoritmo es determinar un conjunto de semillas en la imagen y a continuación hacer crecer de manera iterativa dichas semillas, mediante la adición de píxeles vecinos cuyas características sean similares a la de la semilla. Cuando la región deja de crecer, se compara el nivel de intensidad medio de la misma con la intensidad de las regiones de alrededor, para determinar si se trata de una región sospechosa o no. Las claves para el correcto funcionamiento de este algoritmo radican en el criterio de selección de semillas así como en el criterio utilizado para determinar si un píxel debe o no añadirse a la región.
Una técnica muy similar es la conocida como region clustering. En este caso las regiones se buscan directamente, sin necesidad de establecer semillas iniciales. El algoritmo de k-medias es una técnica de agrupamiento o clustering ampliamente utilizada. Otros algoritmos clásicos utilizados habitualmente para la segmentación de tumores son aquellos basados en la detección de bordes como los filtros de Sobel, Prewitt, Laplaciano, etc.
Otra técnica ampliamente utilizada es el emparejamiento de patrones o template matching. Esta aproximación trata de segmentar las anomalías buscando en la imagen patrones que guarden cierta similitud con un conjunto de prototipos obtenidos previamente de una muestra de entrenamiento. Cuando el tamaño de los patrones (anomalías) a segmentar se desconoce, es necesario disponer de un conjunto de prototipos que abarque todas las escalas posibles, o analizar la imagen de test a distintas escalas.
Substracción de imágenes: mediante la substracción de imágenes se pueden localizar diferencias entre dos imágenes médicas de un mismo paciente tomadas en distintos momentos. Para que esta aproximación genere resultados aceptables, es necesario realizar un alineamiento elástico entre ambas imágenes. Las diferencias encontradas entre una y otra imagen serán regiones sospechosas, aunque entre estas regiones puede haber un número importante de falsos positivos. Es necesario, por tanto, un posterior análisis basado en algún tipo de características, que ayude a reducir los falsos positivos. En los casos de órganos simétricos, como por ejemplo la mama, es posible también buscar diferencias entre las imágenes de cada órgano (por ejemplo mamografías del pecho izquierdo y derecho) tomadas en la misma sesión. Técnicas multiescala: en ocasiones el tamaño de los tumores puede variar considerablemente. En este sentido, las técnicas multiescala pueden facilitar la detección de los mismos. Para ello, el método de detección escogido se aplica a diferentes escalas y se combina, de algún modo, el nivel de sospecha detectado en cada una de las escalas. Por otro lado, mediante la transformación discreta de wavelets (DWT), también es posible hacer un análisis multiescala de la imagen.
Extracción de características y selección
Una vez segmentada la imagen, puede ser necesario extraer características de las distintas regiones de interés (ROI) seleccionadas para determinar con mayor precisión el nivel de sospecha. El espacio de características puede ser muy grande y complejo, debido a la gran variabilidad que puede darse tanto en el tejido sano como en el canceroso. Sin embargo, no todas las características obtenidas son igualmente significativas. Usar un número excesivo de características puede incrementar la complejidad del clasificador y degradar el rendimiento del mismo. La extracción y selección de características es una etapa clave para la correcta detección de tumores, ya que el rendimiento del sistema de CAD depende más de la optimización de la extracción y selección de características que del método de clasificación. Dependiendo del tipo de características que se extraigan de la imagen, el espacio de características puede dividirse en tres categorías: características de intensidad, características geométricas y características de textura. a) Las características de intensidad es la aproximación más simple. Básicamente consiste en utilizar los valores de niveles de gris de cada ROI para caracterizar la misma. Otras aproximaciones utilizan características que representen la diferencia entre el nivel de gris medio de la ROI y el nivel de gris medio de los píxeles que circundan la ROI. b) Las características geométricas o morfológicas se basan en la forma de la ROI, calculándose a partir del área y borde de la misma (área, perímetro, convexidad, momentos de primer, segundo y tercer orden, oblicuidad, etc.).
c) Las características de textura pueden obtenerse a partir de técnicas muy diversas, entre las que cabe destacar las matrices de concurrencia, también llamadas Matrices de Dependencia de Niveles de Gris o Space Gray Level Dependence Matrices (SGLDM), los vectores de estadísticas de diferencia de nivel de gris (GLDS) o las características de Run Length Statistics (RLS).
Independientemente del tipo de características obtenidas en primera instancia, se puede aplicar el Análisis de Componentes Principales (PCA) para decorrelar las distintas características y reducir su número. En este sentido, las técnicas más utilizadas son la selección de características por etapas mediante el Análisis Lineal Discriminante y los Algoritmos Genéticos.
Evaluación del modelo
Un método ampliamente utilizado para la comparación de clasificadores binarios en general y para la clasificación de tumores en particular, es el análisis mediante curvas ROC (Receiver Operating Characteristic), en las que se muestran los verdaderos positivos en función de los falsos positivos.
Cuando el sistema a evaluar no es puramente de clasificación, sino de detección y localización, en el que puede observarse más de un tumor en la imagen, entonces el método más adecuado para la evaluación es el basado en curvas Free-ROC (FROC). En este caso, se muestra la relación entre los verdaderos positivos y el número medio de falsos positivos por imagen.
En la Tabla 1 se muestran los distintos tipos de anomalías que pueden observarse en una mamografía y ser indicativos de a presencia de un tumor maligno. La ecografía permite generar una imagen a partir del eco recibido de una secuencia de ultrasonidos. Una ventaja de la ecografía frente a la mamografía es que, la primera, puede tomarse prácticamente desde cualquier ángulo. Otra gran ventaja de esta técnica radica en que permite distinguir los quistes (tumores benignos formados por líquido) de las masas sólidas (normalmente nódulos cancerosos). En la mamografía, por contra, las masas y los quistes tienen un aspecto muy parecido.
La desventaja de la ecografía es que, aunque ofrece un buen contraste, ofrece una resolución espacial muy pobre.
Tabla 1. Clasificación de los distintos tipos de anomalías observables en una mamografía que pueden ser indicativos de la presencia de un tumor maligno.
La biopsia consiste en tomar una muestra de tejido, para su posterior análisis al microscopio. Este análisis histológico permite revelar, con una fiabilidad del 100%, si en el tejido analizado se encuentran o no células cancerosas. Para realizar la biopsia, normalmente se recurre de nuevo a la mamografía o a la ecografía, como ayuda para dirigir la aguja de la biopsia a la zona del pecho deseada.
Actualmente, no existe un método de segmentación que alcance resultados aceptables para todo tipo de imágenes médicas. No existen métodos que sean generales y que puedan ser aplicados a cualquier variedad de datos. De cualquier forma, los métodos que son especializados para aplicaciones particulares pueden obtener mejores resultados tomando en cuenta conocimiento a priori. Por lo tanto, la selección de un método apropiado para un problema de segmentación puede ser muy difícil. Los trabajos de investigación citados anteriormente, describen varios CADs, o métodos automatizados que se han propuesto con el objeto de apoyar en el diagnóstico de cáncer para ofrecer tratamientos oportunos.
Cada trabajo propone un método y en algunos casos aplica diferentes técnicas para resolver el problema de acuerdo a lo planteado.
Los métodos de segmentación que se describen pueden ser vistos como problemas de optimización, donde la segmentación deseada, es la que minimiza alguna función de energía o de costo definida para una aplicación en particular. La ventaja de ver la segmentación como un problema de optimización, es que define de manera precisa los aspectos deseables de las imágenes. Es muy claro que para diferentes aplicaciones, se necesitan diferentes funciones.
Este trabajo de investigación tiene como objetivo, desarrollar un algoritmo, usando extractores de características para el análisis de imágenes de mamografías digitales, que permitan el análisis de los datos y seguimiento para otras etapas.
La aplicación fue desarrollada en el lenguaje de programación MATLAB y C++, tomando como ventaja la transportabilidad a diferentes sistemas operativos, así como la base de datos en MYSQL.
El sistema desarrollado, se conforma de las siguientes etapas: digitalización, preprocesamiento, segmentación y selección y extracción de características, para lo cual se utilizan métodos estadísticos, teorías de fractales y diversas técnicas con algoritmos tales como modelos de Markov, algoritmos de lógica difusa y redes neuronales. En el sistema automatizado, se procesa la imagen y se obtiene un diagnóstico de preclasificación sobre ella, basado en el histograma, tejido, operaciones (ecualizar, binarizar, cortar, brillo, contraste, reflejo, zoom); y con la manipulación de la imagen y agrupamiento se realiza la detección de anomalías.
La minería de datos, aplicada al procesamiento de imágenes ha dado buenos resultados a través de la aplicación de redes neuronales para las tareas de clasificación y agrupamiento [20].
El trabajo propuesto, dirigido al sector salud, considera que al aplicar métodos de clasificación, utilizando la minería de datos, puede proporcionar buenos resultados que pudieran ser de gran utilidad en la detección de anomalías en dichas imágenes. Además se pueden determinar estrategias para el pre-procesamiento de la imagen, proponer que sistema inteligente es el más apto para realizar el reconocimiento y el método que genere un posible diagnóstico, validarlo mediante un conjunto de datos reales, empleando las redes neuronales para clasificar imágenes tomográficas, detección de anormalidades contenidas y proveer una buena clasificación. La metodología propuesta en este trabajo, se conforma por una serie de etapas, las cuales se describen a continuación. La primera etapa, consiste en obtener regiones de interés (ROI) de las imágenes de nuestra base de datos. La segunda etapa consiste en aplicar el proceso de filtrado Quincunx, y el proceso de filtrado Wavelet Daubechies DB4, a este último se le aplica una umbralización suave en los detalles de descomposición en el dominio transformado. El 70% de las imágenes de datos, son utilizadas para este propósito. La tercer etapa consiste en la extracción de las características no contextuales (intensidad de píxel) y contextuales (contraste local CI, contraste local normalizadoCIn y magnitud de gradiente B), los cuales forman un arreglo de características que serán analizados. En la cuarta etapa estas características son analizadas mediante la combinación del método de regresión secuencial SFS y una Red Neuronal Artificial de Regresión General GRNN, el cual selecciona el arreglo óptimo que modele las mejores características que sean representativas a microcalcificaciones. En la última etapa se realiza la segmentación a las imágenes, mediante el algoritmo de clasificación no supervisado k-medias, en el cual se obtienen los centros para clasificar el resto de las imágenes de la base de datos (30%) y poder comparar finalmente, si las imágenes segmentadas con las características extraídas de las imágenes procesadas con filtro Quincunx, son o no mejores respecto a las imágenes segmentadas con las características extraídas de imágenes procesadas con la familia de Wavelet. Las propiedades de una descomposición Wavelet son afectadas de manera favorable en el esquema de muestreo, es decir, que las muestras de la señal, en el caso bidimensional, es dividida en un número de fases.
La imagen de la primera fase es reconstruida por medio de la diferencia de la salida del filtro de actualización y del promedio de los coeficientes Wavelet. Entonces e la imagen reconstruida de la primera fase es filtrada con el filtro de predicción cuya salida es agregada a los coeficientes de detalle Wavelet resultantes de la imagen de la segunda fase. La imagen reconstruida se obtiene simplemente uniendo ambas fases.
La segmentación Quincunx ligeramente mejor en comparativa con la imagen segmentada Wavelet, también obtiene un mejor número de características que representa mejor a las microcalcificaciones, así como un bajo número de clases necesarias para la segmentación.
El filtrado Quincunx es una mejora al filtrado Wavelet convencional, debido a que obtiene diferentes propiedades de orientación bajo una descomposición Wavelet. Las características de una imagen que no pueden ser detectadas mediante los detalles horizontales, detalles verticales y detalles diagonales, pueden ser detectadas mediante el empleo de Wavelets no separables como el enrejado Quincunx, el cual ofrece una solución a este problema. Los coeficientes Wavelet de detalles, están dominados por el ruido, mientas que los coeficientes de aproximaciones, proveen más información de la señal que del ruido.
Las mamografías correctamente clasificadas, consideraron algunos criterios como las categorías de acuerdo a la información y posteriormente evaluar el grado de acierto. Con esto, se busca disminuir el número de falsos positivos.
Algunas aplicaciones utilizadas en este trabajo, para la clasificación de imágenes médicas son el FP Image (8), el cual fue usado en la visualización de imágenes y la conversión de estas en otros formatos, el ImageMagick (9), permite la conversión a otros formatos y transformaciones de las imágenes, el software ImageJ (10), que permite visualizar, editar, analizar, procesar, guardar e imprimir imágenes, Soporta stacks, una serie de imágenes que comparten una ventana simple, permite también el cálculo de estadísticas, crea histogramas, permite el procesamiento y está diseñado con arquitectura abierta que provee extensibilidad a través de plugins, que permiten resolver problemas de tratamiento y análisis de imágenes; y el Weka (11), que contempla algoritmos que pueden ser aplicados directamente a una base de datos o llamada desde su propio código Java. WEKA contiene herramientas de datos: pre-procesamiento, clasificación, regresión, agrupación, normas de asociación, y la visualización. También es bien adecuado para el desarrollo de nuevos sistemas de aprendizaje automático.
La herramienta radiográfica BI-RADS fue usada como un sistema de control de calidad durante los reportes e interpretaciones de mamografías, haciendo una evaluación numérica de categorías (clase 0, clase I, clase II, clase III, clase IV, clase V y clase VI) para la interpretación por el radiólogo. Con lo qué, la aplicación presenta un reporte radiográfico uniforme y más preciso para que pueda ser interpretado por los médicos especializados. La información clasificada en categorías, respecto al análisis de las imágenes, presentan una base de datos en la que el resultado obtenido puede precisar el diagnóstico del cáncer de mama, además será de mucho apoyo a los médicos especialista en el sector salud minimizar los falsos positivos.
Las imágenes de mamografía para este proyecto de investigación fueron tomadas de The Mammographic Image Analysis Society (MIAS). La base de datos contiene 322 imágenes de las cuales 25 contienen microcalcificaciones, 13 son malignas y 12 son benignas. Varios trabajos relacionados han usado en sus pruebas esta base de datos [21].
Referencias Bibliográficas
1. (2005). "Digital vs. Film Mammography in the Digital Mammographic Imaging Screening Trial (DMIST): Questions and Answers." from http://www.cancer.gov/cancertopics/factsheet/DMISTQandA.
2. (2008). "Sociedad Americana del Cáncer." from http://www.cancer.org/.
3. A Jain and D. Zongker. (1997). "Feature selection: evaluation, application, and small sample performance."
4. Althuis, M. D., J. M. Dozier, et al. (2005). "Global trends in breast cancer incidence and mortality 1973-1997." Int. J. Epidemiol. 34(2): 405-412.
5. Ayres, F. and R. Rangayyan (2007). "Reduction of false positives in the detection of architectural distortion in mammograms by using a geometrically constrained phase portrait model." International Journal of Computer Assisted Radiology and Surgery 1(6): 361-369.
6. Ayres, F. J. and R. M. Rangayvan (2005). "Characterization of architectural distortion in mammograms." Engineering in Medicine and Biology Magazine, IEEE 24(1): 59-67.
7. Baker JA, K. P., Lo JY, Floyd CE Jr (1996). "Artificial neural network: improving the quality of breast biopsy recommendations." Radiology 198(1): 131-135.
8. Ball, J. E. and L. M. Bruce (2007). Digital Mammogram Spiculated Mass Detection and Spicule Segmentation using Level Sets. Engineering in Medicine and Biology Society, 2007. EMBS 2007. 29th Annual International Conference of the IEEE.
9. Bellotti, R., F. De Carlo, et al. (2006). "A completely automated CAD system for mass detection in a large mammographic database." Medical physics 33(8): 3066-3075.
10. Bezares, F. G. (1990). "Analisis Factorial por Componentes Principales."
11. Borgen, P., G. Wong, et al. (1992). Current management of male breast cancer. a review of 104 cases.
12. Brem, R. F., J. Baum, et al. (2003). "Improvement in Sensitivity of Screening Mammography with Computer-Aided Detection: A Multiinstitutional Trial." Am. J. Roentgenol. 181(3): 687-693.
13. Brown, J., S. Bryan, et al. (1996). "Mammography screening: an incremental cost effectiveness analysis of double versus single reading of mammograms." BMJ (Clinical research ed.) 312(7034): 809-812.
14. Caputo, B., E. La Torre, et al. (2002). "A new kernel method for microcalcification detection: Spin Glass-Markov Random Fields." Studies in health technology and informatics 90: 30-34.
15. Ciatto, S., N. Houssami, et al. (2007). "Computer-Aided Screening Mammography." N Engl J Med 357(1): 83-85.
16. Chan, H., Sahiner B, et al. (1998). "Computerized analysis of mammographic microcalcifications in morphological and texture feature spaces." Med Phys 25(10): 2007-2019.
17. Cheng, H., X.Shi, et al. (2005). "Approaches for automated detection and classification of masses in mammograms." Pattern Recognition.
18. Cheng, H. D. and H. Xu (2002). "A novel fuzzy logic approach to mammogram contrast enhancement." Information Sciences 148(1): 167-184.
19. Christoyianni, I., E. Dermatas, et al. (2000). Fast detection of masses in computer-aided mammography, IEEE Signal Process.
20. Dhawan, A. P., Y. Chitre, et al. (1996). "Analysis of mammographic microcalcifications using gray-level image structure features." Medical Imaging, IEEE Transactions on 15(3): 246-259.
21. Díaz, S. A. O. (2004). "Detección Automática de Agrupamientos de Microcalcificaciones en Mamografías Digitalizadas."
Autor:
Ing. Alejandro Díaz Sotolongo,
Departamento de Computación, Facultad de Ingeniería, Universidad de Ciego de Ávila, Cuba.
Página anterior | Volver al principio del trabajo | Página siguiente |