Estudio del tráfico del nodo central de REDUNIV usando los métodos Whittle local y gráfico R/S (página 3)

Partes: 1, 2, 3, 4

edu.red (Ec. 8.1)

El estimador del espectro potencia se obtiene a través de la Transformada Discreta de Fourier (DFT, de sus siglas en inglés) de la autocovarianza muestral edu.red conocido como espectro muestral Ix(k), o "periodograma" [35, 39, 47].

edu.red (Ec. 8.2)

De esta forma podemos llegar a la conocida expresión del periodograma. edu.red (Ec. 8.3)

donde X es la serie temporal y N el largo de la misma.

El periodograma, suele definirse, solo para frecuencias edu.red donde k=1, 2,…..,N* donde N* es la parte entera de (N-1)/2.

Para hallar H a través de este método nos basamos en el comportamiento exhibido por la densidad espectral de potencia de los procesos LRD, para frecuencias próximas al origen:

edu.red para edu.red (Ec. 8.4)

La ecuación anterior (Ec. 8.4) también puede escribirse de la forma:

edu.red

Por tanto usando el estimador de la densidad espectral, el periodograma I(?), para ?=(2p/N)*k con k=1, 2,…… edu.red se puede obtener una regresión lineal del log(I(?)) frente a log(?) la cual permite estimar el valor de H, de la forma que se muestra a continuación, si ß es la pendiente de la recta obtenida:

edu.red (Ec. 8.5)

Este método fue propuesto por Geweke y Poter-Hudak [35, 39] bajo el nombre de estimador GPH aunque con una forma levemente distinta. En dicho método la regresión se hace sobre el edu.red Sin embargo para frecuencias muy pequeñas cercanas a cero ambos algoritmos son equivalentes.

El principal inconveniente de este método es el comportamiento del espectro. Este comportamiento solo se mantiene para frecuencias próximas a cero lo cual se ve expresado en la ecuación (Ec. 8.4). A medida que aumenta la frecuencia, se hacen más importantes los efectos SRD esto introduce un sesgo en la estimación. Este problema puede arreglarse si se trabaja con las M frecuencias inferiores. Según la literatura hay autores que proponen tomar M=5%N y otros edu.red para su estimador. De aquí surge otro problema, derivado de que el periodograma posee fluctuaciones, las cuales aumentan a medida que se acerca a la frecuencia cero. Por ello según [35, 39], en 1995 Robinson propone un estimador empleando log(?) como regresor. Con esta solución se evitan estos escollos pues solo se consideran las frecuencias superiores a 2pM/N y las inferiores a 2pL/N [24].

Algoritmo 2: Seudo código del método Regresión sobre el dominio espectral

Entrada: arreglo matricial de los datos de las capturas

Entrar lista valores de las ventanas temporales (n) acorde a la serie
Repetir desde el primer valor de la lista anterior hasta el final de la lista

Calcular la longitud de cada Lambda L para cada frecuencia hasta J p
Calcular el periodograma para cada lambda de la forma (Ec. 8.3)

Graficar el logaritmo del periodograma contra el logaritmo de Lambda
Hallar la pendiente de la regresión del paso anterior por el método de los mínimos cuadrados
Hallar la pendiente B del ajuste lineal del paso anterior

Salida: devolver H igual a (1-B)/2 de la forma que se ve en (Ec. 8.5)

Método de Whittle.

Para hablar de Whittle Local se hace imprescindible hablar del método de Whittle [30, 35] que se describe, como a continuación:

Sea edu.red la forma paramétrica de la densidad espectral de un proceso gaussiano Xt, donde ? = (?1, ?2,……, ?M) es el vector de parámetros que se desea estimar y I(?) el periodograma muestral definido por:

edu.red (Ec. 9.1)

como en la expresión (Ec. 8.3).

El MLE aproximado de Whittle es el vector edu.red que minimice la función:

edu.red (Ec. 9.2)

En la práctica el estimador de Whittle se calcula eligiendo un parámetro de escala adecuado ?1 de forma tal que:

edu.red

y donde se anule el segundo sumando de la expresión (Ec. 9.2), quedando

edu.red

donde ? = (?2, ?3,…….., ?M) y ?*=(1, ?).

Para poder utilizar el estimador de Whittle es necesario conocer la forma paramétrica del espectro, éste solo puede aplicarse a procesos para los que dicha forma se halla disponible, entre los que se encuentran los procesos FGN y F-ARIMA(p,d,p).

Para FGN:

edu.red (Ec. 9.3)

Para F-ARIMA:

edu.red (Ec. 9.4)

Como para los procesos FGN y F-ARIMA(p,d,q) (con p y q conocidos), el vector ? se reduce a un único parámetro, H o d, el método es exactamente igual para ambos (salvo la forma del espectro utilizada).

Para un proceso genérico F-ARIMA(p,d,q), el vector ? será de dimensión superior, ya que incluirá además del parámetro de interés d, los coeficientes desconocidos de las partes autorregresivos (AR) y de medias móviles (MA). Ello implica la resolución, a partir de la ecuación (Ec.9.2) de un sistema de ecuaciones no lineales. Dependiendo de la complejidad del modelo, esta puede ser una tarea muy costosa computacionalmente.

De esta forma, para estimar el valor de H se hace necesario el corolario del teorema del límite central para el estimador Whittle [24]. En el capítulo 1 epígrafe 1.8 está definido dicho teorema para los procesos autosimilares.

Corolario del teorema del Límite Central Para el Estimador de Whittle

En el caso de estimar un único parámetro H, sí H es el valor que minimiza la función Q(H) y H0 es un valor real, entonces

edu.red

siendo:

edu.red

A parte de la necesidad de conocer la forma de la densidad espectral, tanto el método de Whittle, como su versión discreta, son computacionalmente complejos y altos consumidores de recursos.

Como solución a esta problemática, el método de Whittle Agregado, definido con anterioridad en el capítulo 1 epígrafe 1.8, se basa en suponer los procesos de las series agregadas como procesos FGN. Esto garantiza conocer la forma del espectro, definida en el inicio del epígrafe por la expresión (Ec. 9.3), para poder aplicar el método original sobre dichos procesos agregados. Sus principales inconvenientes son, que se necesitan series muy largas para trabajar y que no se puede conocer a priori el nivel de agregación para el cual el método va a dar buenos resultados.

Método de Whittle Local

Whittle Local, fue seleccionado por dos cuestiones trascendentales, la primera permite operar aun desconociendo la forma paramétrica del espectro de potencia de la serie, la segunda no necesita agregar las series para aproximar la forma del espectro.

A diferencia del método original el método local es un estimador semi-paramétrico, ya que solo especifica la forma paramétrica para la densidad espectral en las frecuencias próximas a cero como se expresa a continuación [30, 35, 39]:

edu.red cuando ??0 (Ec. 9.6)

Así este método comparte características similares con otros estimadores basados en el periodograma, que solo supone la forma del espectro para frecuencias próximas a cero y al igual que Whittle, implica minimizar una versión modificada de la función Q(H) anterior en la ecuación (Ec. 9.2).

Si en la expresión (Ec. 9.2), se sustituye f(?,H) por la expresión (Ec. 9.6) y se integra (se suma) solo hasta la frecuencia 2pM/N donde:

edu.red cuando N?8 (Ec. 9.7)

se obtiene

edu.red (Ec. 9.8)

de esta forma, sí se reemplaza la constante G por su estimación

edu.red (Ec. 9.9)

se obtiene la función a minimizar

edu.red (Ec. 9.10)

donde

edu.red (Ec. 9.11)

Robinson también demostró que el valor estimado de H, converge al valor real de H0 y de esta forma el estimador es asintóticamente normal, esto lo expresó de manera formal a través del siguiente teorema [24]:

Si H es el valor del parámetro H que minimiza la función R(H) y H0 es su valor real, entonces:

edu.red cuando edu.red

Siendo

Al igual que el método agregado de Whittle, en el caso del método basado en la regresión sobre el periodograma, la elección del valor de M resulta fundamental y así aparece el compromiso habitual en estos métodos entre el sesgo y la varianza. A medida que aumentamos M más rápidamente H convergerá hacia H0, pero en cambio, la forma del espectro se apartará más de la forma representada en la ecuación (Ec. 9.6) y los efectos SRD serán mayores, por lo que el sesgo aumentará. También al igual que en los citados métodos, debe optarse por representar H frente a M para encontrar la región plana de la gráfica.

Algoritmo 3: Seudo código del método Whittle Local

Entrada: arreglo matricial de los datos de las capturas

Entrar lista valores de las ventanas temporales (n) acorde a la serie
Entrar los valores de los bloques a usar M
Entrar los valores de las H nominales
Repetir desde el primero hasta el último valor de M

Repetir desde el primero hasta el último valor de las H nominales para cada valor de M
Calcular los valores de las Lambdas y los del periodograma expresados en la ecuación (Ec. 8.3)

Calcular el valor de H que minimiza la función R expresada en la ecuación (Ec. 9.11)
Graficar la regresión de H contra el valor de M

La salida del algoritmo depende sobre todo de la perspicacia humana ya que el valor de H nominal depende sobre todo de la región plana de la gráfica en la regresión de H contra el valor del tamaño del bloque (M).

Conclusiones.

En este capítulo, se han mostrado, de forma detallada, los algoritmos a utilizar en el trabajo, con el fin de calcular la autosimilaridad en las series temporales que se generen del tráfico medido en el nodo central de Reduniv.

Mediciones del Tráfico en el Nodo Central

Para caracterizar el tráfico de una red se necesita tener muestras de este. Para ello se hace indispensable hacer capturas o mediciones del mismo. Estas por lo general no deben hacerse en cualquier momento sino siguiendo una lógica de trabajo que responda a las necesidades de caracterización.

Por regla se trata que estas capturas sean representativas del tráfico en todo momento o por lo menos que respondan a altos niveles de demanda. Esto garantiza poder observar y estudiar el desempeño de la red para estos volúmenes de tráfico.

Es de suma importancia, para poder realizar las mediciones, tener un conocimiento pleno de la estructura de la red a analizar. Esto garantiza un diseño e implementación del esquema de mediciones acorde a las necesidades de caracterización.

Para definir el esquema de mediciones. Se hace necesario tener en cuenta una serie de aspectos como son:

1. La hora del día a la que se deben realizar las capturas.
2. La cantidad de capturas a realizar dependiendo de lo heterogéneo que sea el tráfico en dependencia de las horas del día.

El tiempo de capturas debe responder directamente a las capacidades de almacenamiento y procesamiento de los datos capturados ya que estos pueden ser bastante grandes en cuestión de espacio de almacenamiento (mb) y longitud de las series de datos que generan.

Estructura del Nodo Central.

El Nodo central de la red Universitaria se encuentra ubicado en el sótano del Organismo Central del MES junto con su equipo de dirección y administración. Su equipamiento a grandes rasgos está compuesto por un router Cisco 3745 que está conectado al canal ATM de 34 Mbps, correspondiente a los enlaces con las redes LAN de los CES (Centros de Educación Superior) y con el proveedor de Internet (ENET). Permitiendo, la comunicación con los siguientes enlaces:

LAN Ethernet a 100 Mbps correspondiente al enlace por fibra óptica con la Universidad de la Habana UH. Este enlace está limitado a 2 Mbps.
LAN Ethernet a 100 Mbps correspondiente al enlace con la red LAN del Organismo Central del MES. Este enlace se conecta al switch capa 2 Cisco 2950 al cual están conectados todos los servidores que componen el nodo central además de un canal que conecta a la LAN del MES a través de un switch capa 3 Cisco 3550.

Figura 6. Esquema de la red del Nodo Central de Reduniv.

edu.red

Diseño e implementación del esquema de mediciones.

Esquema de mediciones.

Se puede decir, que para poder caracterizar el tráfico que se quiere analizar, se hace necesario recolectar gran cantidad de trazas. Para esto se implementó un esquema de captura correspondiente al enlace que conecta al Nodo Central con el canal de entrada y salida ATM. Específicamente el Nodo Central se conecta a este enlace ATM a través del puerto FastEthernet0/1 del switch capa2 Cisco 2950 con la puerta LAN del router

Cisco 3745.

Sobre la base de esta configuración, al puerto FastEthernet0/1 del switch capa 2 Cisco 2950 se le configuró un espejo en el puerto FastEthernet0/2 donde se conectó la PC encargada de la recolección de los datos, a la cual se l le instaló un Sniffer para poder realizar las mediciones de tráfico y se le configuró la tarjeta de red en modo promiscuo para permitir la escucha del tráfico ajeno.

El esquema a continuación, responde básicamente al interés de capturar el tráfico de entrada y salida del nodo central. En el se muestra la PC encargada de la recolección de datos, conectada al switch capa 2 Cisco 2950, al que está conectado también el nodo central, tal como se ve en la figura (6).

edu.red

Figura 7. Esquema de Captura del tráfico.

Descripción del esquema de mediciones.

Para la implementación del sistema de captura, se utilizó una computadora personal con sistema operativo Ubuntu 7.10 y para realizar las mediciones se empleó una herramienta sniffer, las cuales tienen la utilidad de capturar, almacenar e interpretar las trazas de tráfico, que circulan por la red para su posterior análisis. El sniffer utilizado fue la herramienta Wireshark que es una versión posterior del Ehtereal, aplicación ampliamente usada en este tipo de trabajos [33].

Wireshark es una herramienta que pertenece a la comunidad de Software libre. Esta aplicación existe para casi todas las distribuciones de Linux y se instala fácilmente desde cualquier repositorio o fichero de instalación como *.rpm o *.dev además cuenta con una interfaz gráfica que facilita enormemente la interacción con ella. Para Windows también existen versiones muy parecidas a las de Linux aunque por regla, basados en la experiencia de trabajo, se puede decir que, presentan dificultades en el refrescamiento de los datos cuando las capturas son voluminosas.

Datos a tener en cuenta.

En la realización de las mediciones se prestó gran interés a los datos correspondientes al tamaño de los paquetes, tiempo de arribo, protocolo de las tramas, fuente y destino. Con respecto a estos datos solo se cambió la configuración del tiempo de arribo, donde se sustituyó el valor por defecto por un (delta t) de 100 Mseg. con el objetivo de ser más riguroso en el análisis y tratamiento posterior de las trazas capturadas.

Con respecto a los datos que brinda el Sniffer la dirección de la fuente y el destino, nos permiten diferenciar el tráfico de entrada del de salida, por otra parte se puede determinar de donde proviene el mismo y definir si es de Internet, de la propia red universitaria o de la intranet nacional. De esta forma se pueden determinar los porcientos equivalentes al volumen de tráfico entrante con respecto al saliente y de forma más detallada poder catalogar los servicios de mayor demanda y análogamente los de menor o ninguna.

Por otra parte los protocolos de comunicación ofrecen información a cerca del tipo de tráfico que se mueve por la red. Además brindan la posibilidad de detectar anomalías en el tráfico. Ejemplo de ello, hallar paquetes destinados a servicios que se supone no estén publicados en las direcciones a las que están accediendo las tramas.

Fruto de ese análisis fueron excluidos datos importantes, como el puerto de destino de los paquetes o las direcciones que no se podían resolver, entre otros, por no mostrar información de relevancia efectiva para este trabajo. En contraste se dejaron las fuentes y los destinos de las tramas con el fin de conocer a fondo el tráfico entrante y saliente del nodo. El tiempo entre arribos ya que con este parámetro es que se calcula la cantidad de paquetes por unidad de tiempo y el protocolo de las tramas para poder hacer una caracterización por los protocolos de mayor interés para este trabajo y permitirnos una comparación con el total.

Selección de los instantes de tiempo y la cantidad de capturas a realizar.

Con el objetivo de determinar la hora del día a la cual realizar las mediciones se optó por sustentar la decisión sobre los resultados arrojados por el estudio de perfil de tráfico llevado a cabo en el nodo en enero del presente año [21].

A grosso modo el tráfico del nodo central fue analizado durante el mes de enero con la herramienta Netflow Analyzer 5.0. La cual es una aplicación propietaria creada por la empresa AdvenNet, Inc. la que se dedica a crear herramientas de este corte y de simulación.

Los datos arrojados por este estudio son: que el tráfico de entrada y salida es mayor en el período de 6:00am a 12:00pm. Válido aclarar que a fin de realizar esta investigación se dividió el día en cuatro para analizar de forma más sobria los resultados. Los períodos en que se dividió fueron: primero de 6:00pm a 12:00pm, segundo 12:00pm a 6:00pm, tercero, de 6:00am a 12:00am, cuarto 12:00pm a 6:00 AM.

Estos datos reflejan que durante la mañana hay un mayor acceso a los servicios del nodo central. Ello está en perfecta concordancia pues este es uno de los horarios en que los usuarios descargan un mayor volumen de información procedente del nodo.

Puede observarse también que el volumen de tráfico que sale del nodo es considerablemente mayor al que entra, lo cual está relacionado con la variedad de servicios que están implementados en el mismo y que son de carácter nacional e internacional, como el Servidor proxy para el acceso a las bases de datos del proyecto PERI o el repositorio d revistas Científicas.

Los análisis arrojaron que la hora de mayor tráfico se concentraba alrededor de las 11:00am y que este volvía a tener otro pico hacia las 3:00pm. Luego de este pico el tráfico volvía a decaer. Tomando en cuenta todo esto se decidió hacer dos mediciones con el objetivo de obtener un marco de comparación. Las mediciones se realizaron a las 11:00am y a las 3:00pm el mismo día, con la intención de que generasen un margen de comparación y trabajo entre las dos mediciones. Con respecto al tiempo de captura se optó por medir 5 minutos, ya que en trabajos similares se obtuvo buenos resultados para este tiempo [21].

Mediciones del Nodo.

Los resultados obtenidos para la primera medición a las 11:00am fueron: para 5 minutos (300 Seg.) 222635 tramas capturadas con un aproximado de 122mb.

Al descomponer por protocolos la captura de las 11 de la mañana se vio que los principales protocolos que acceden al nodo son: TCP con 187180 paquetes, que representan, más del 80% del tráfico total y UDP con 33832 paquetes que representan alrededor del 15% del tráfico total. Para tener una idea de estos resultados se muestran las gráficas a continuación.

edu.red

Figura 8. Tráfico de las 11am por segundo (300 seg.).

edu.red edu.red

Figura 9. Principales protocolos del Tráfico capturado a las 11am por segundo (300 seg.). TCP a la izquierda, UDP a la derecha.

Para la captura de las 3 de la tarde el tiempo de captura se mantuvo en 5 minutos para un total de tramas capturadas de 156093 y un aproximado de 115mb.

Al descomponer el tráfico de las 3pm en protocolos arrojó una estructura bastante similar al tráfico de las 11am ya que los paquetes TCP seguían constituyendo más del 80% del tráfico, con un total de 131283 paquetes capturados y las trazas UDP continuaban copando casi el resto del tráfico alrededor de un 15% del total con una suma de 20034 trazas capturadas. Ambos protocolos se distribuyen como se muestran en la figura a continuación.

Figura 10. Tráfico de las 3pm por segundo (300 seg.).

edu.red edu.red

edu.red

Figura 11. Principales protocolos del Tráfico capturado a las 11am por segundo (300 seg.). TCP a la izquierda, UDP a la derecha.

Por otra parte, se pudo observar un descenso en le nivel del tráfico total capturado a las 3pm de un 25% con respecto al tráfico de las 11am.

Tratamiento de los datos.

El tratamiento de los datos se hizo en dos partes. En una primera parte se tomaron las capturas realizadas por el Sniffer las cuales se exportaron a un fichero de texto plano. Luego de esto se realizó un proceso de discretización para el tráfico, en el que se escogió un delta tiempo de 0.1 segundos. De esta forma se obtuvieron series con una estructura de cantidad de bytes por tiempo de arribo.

Algoritmo 5: Seudo código del método utilizado para discretizar los datos

Entrada: Fichero de texto plano con las columnas de tiempo entre arribos contra cantidad de bytes

Establecer un intervalo de discretización (T) en este caso 0.1 seg
repetir para toda la serie

sumar las cantidades de la columna de cantidad de bytes que correspondan a las duplas que su delta t sea menor que el intervalo de discretización propuesto
incrementar el intervalo T en el mismo.

Salida: Fichero o serie de tiempo de una columna con la cantidad de bytes discretizados en el tiempo T

edu.red edu.red De este modo se obtuvieron series más cortas y manejables, facilitando el trabajo con ellas y además con valores numéricos más aceptables para el cálculo. Las mismas se representan gráficamente según como se muestra a continuación.

Figura 12. Cantidad de paquetes por cada 0.1 seg. A la izquierda el tráfico de las 11am. A la derecha el tráfico de las 3pm.

A simple vista se puede observar que el gráfico que corresponde a las 11 de la mañana está compuesto por una curva de aspecto más suave que el tráfico representado de las 3 pm por lo que se presume que el comportamiento de este a las 11am tenga un parámetro de autosimilaridad mayor.

Conclusiones.

Como se ha visto, en este capítulo se han tratado los temas concernientes a los datos a utilizar en la investigación. Para esto, se han diseñados e implementado, esquemas de mediciones, se ha capturado el tráfico en los instantes previstos y se ha hecho un tratamiento matemático a las capturas, con el fin de obtener series temporales con las que trabajar en el siguiente capítulo.

Caracterización del Tráfico de Nodo Central de Reduniv

Introducción.

Para caracterizar del tráfico del Nodo Central de Reduniv de forma general sin entrar en profundidad se puede decir que las capturas arrojaron como resultados preliminares, que el tráfico de la red es mayormente de salida. El mismo fue medido en varios instantes de tiempo y para todos los casos mostró resultados donde los niveles de salida fluctuaban entre el 55% y 75% del tráfico total. Lo que quiere decir que las peticiones que se hacen desde la red, ya sea externa o la LAN del MES hacia el nodo son mucho más las que hace el nodo hacia la red. Esto está en completo acuerdo con el criterio de que en el Nodo Central de Reduniv se brindan una serie de servicios de amplia demanda como son:

1. Servidor FTP
2. Biblioteca virtual de la educación superior (BIVES)
3. Repositorio de Revistas Científicas de la Educación Superior cubana, la cual se anexa la publicación de la revista Pedagogía Universitaria y demás publicaciones de la Editorial Universitaria (Eduniv)
4. Repositorio de Software Libre, para los sistemas operativos Suse, Ubuntu y Debian. Este repositorio actualmente cuenta con casi 1 Tb de información
5. Portal de la Intranet Nacional Universitaria
6. Portal Ipv6 Cuba
7. Portal de SoftWare Libre
8. Servidor proxy para el acceso a las bases de datos del proyecto PERI
9. Servidor de correo electrónico nacional e internacional
10. Servidor de nombres de dominio (DNS), que incluye servidores secundarios para otros dominios de la Red Universitaria

Composición del Tráfico.

Las mediciones del tráfico realizadas pusieron a relieve que el tráfico a las 11 de la mañana tiene un máximo y este vuelve a tener otro pico hacia las 3 de la tarde donde comienza a decaer paulatinamente. En nuestras capturas, el tráfico de las 3 de la tarde representa casi el 75% del capturado por la mañana. Lo que está en completo acuerdo con los resultados obtenidos en [21].

Analizando el tráfico en profundidad, este mostró que el mismo está compuesto mayoritariamente por paquetes TCP, lo que está acorde con la cantidad de servicios implementados en el nodo que tienen tráfico sobre este protocolo. Estos representan alrededor de un 84% y la otra parte del tráfico está compuesta por paquetes UDP que representan el otro15%, más un 1% que está constituido mayoritariamente por paquetes ARP. Este esquema de comportamiento de las trazas es extensible para ambas mediaciones, ya que estas capturas tienen el mismo comportamiento.

Dentro de las tramas TCP el mayor peso lo ocuparon protocolos como RSYNC perteneciente al tráfico de actualizaciones de los repositorios de Software libre, que tienen en la actualidad un aproximado de 1 Tera-Byte de almacenamiento; este tipo de tráfico puede llegar a tener niveles del orden del 10 % del tráfico total sobre todo en la mañana. Otro renglón importante dentro del mismo protocolo lo obtiene el tráfico FTP que responde directamente a las descargas de los elementos publicados a través de este tipo de servicios en el nodo; su comportamiento es similar al tráfico RSYNC y sus niveles están por el orden del 10 % del tráfico total, sobre todo en horas de la mañana. Este comportamiento induce a la idea de que la mañana es la hora en la que mayoritariamente se realizan las actualizaciones de sistemas, antivirus, etc. A parte de las descargas de aplicaciones, ya sea de repositorios o de servicios FTP.

Por otro lado el protocolo HTTP, perteneciente al tráfico web, llega a tener un peso significativo, alrededor del 16 % del tráfico total, lo cual es un nivel importante. Sin embargo este comportamiento solo es avistado en el horario de la tarde, lo que remite a la idea de que esa es la hora escogida para la navegación o el acceso a las páginas publicadas en el nodo central. Apoyamos este criterio en el hecho de que el tráfico FTP y RSYNC concernientes a descargas y actualizaciones caen a niveles insignificantes del 1% y el 2% respectivamente del tráfico total en la captura realizada en la tarde.

No menos importante es el tráfico de Data TCP que por momentos llega a constituir casi el 20% del tráfico total y que se mantiene constante en niveles parecidos para ambas capturas, esto es un indicador de que este tipo de tráfico es intrínseco al nodo.

Por otra parte los paquetes UDP pertenecen en casi su totalidad a las peticiones DNS que representan alrededor del 14% del tráfico total, manteniendo este comportamiento en ambas capturas.

Podemos resumir entonces que por la mañana hay una un marcado incremento de las descargas de ficheros, tanto de los ftp, como de los repositorios, además de las actualizaciones. Tanto como del acceso general a los recursos del nodo. Sin embargo estos niveles caen por la tarde, incluyendo el acceso general al nodo que decae en el orden de un 25%.

Parámetros a Caracterizar.

Por lo general la caracterización del tráfico se hace sobre ciertos parámetros, con el objetivo de que estos describan por si mismo el comportamiento del tráfico de una forma global. Estos parámetros son: la media del tráfico, la varianza del mismo, el pico o máximo y la variabilidad, además la autosimilaridad de este.

La Media del Tráfico.

El tráfico puede ser caracterizado, con respecto a la media (m) o el valor esperado E[A], donde A es el número de llegadas en un tiempo (i). De esta forma la llegada media de un flujo de tráfico, es capaz de describir la intensidad del mismo de la forma que se expresa a continuación:

edu.red i=1, 2,……k (Ec. 10.1)

donde k es el número total de instantes i.

El Pico del Tráfico.

El pico del tráfico, se define como el valor más alto de llegadas en un instante de dado para un período de tiempo y se describe como:

edu.red (Ec. 10.2)

donde Ai representa el número de llegadas en el instante i.

La Varianza.

De igual forma, la varianza mide el grado de dispersión que tienen las entradas de un flujo de datos de la forma:

edu.red i=1, 2,……,k (Ec. 10.3)

donde Ai representa el número de llegadas en el tiempo i, s la desviación típica o standard y k es el número total de instantes i.

La Variabilidad (brustiness).

La variabilidad describe, cuan variable o (how brusty) es un flujo de tráfico, esto se logra dividiendo la desviación típica sobre la media. También suele denominarse como "coeficiente de dispersión".

edu.red (Ec. 10.4)

donde s es la desviación típica del proceso, igual a la raíz de la varianza. m el valor medio del tráfico, igual al valor esperado E[A].

El Parámetro Hurst o de Autosimilaridad.

Para hallar el parámetro de Hurst por la importancia que reviste el mismo se utilizan tres métodos propuestos y explicados en el capítulo 2.

El algoritmo R/S Plot, también conocido como rango de rescalado, el método de Regresión sobre el Periodograma, o sobre el Dominio Espectral y el método de Whittle Local.

Resultados Obtenidos.

Para implementar el cálculo de los parámetros descritos en el epígrafe anterior y los métodos que aparecen en el capítulo 2 con el objetivo de determinar la autosimilaridad de las series, se escogió la herramienta matemática (Matlab 7.0). La misma es una herramienta creada por la empresa MathWork, sobre Java. Esta se caracteriza por su seriedad y la aceptación de la comunidad científica.

La caracterización del tráfico propiamente dicho, se va a hacer diversificando el tráfico por cada captura, es decir sin mezclar los resultados obtenidos en la medición de las 11am con los resultados obtenidos sobre la medición de las 3 de la tarde, con el objetivo de evitar errores de interpretación sobre los resultados. Esta caracterización se hará sobre el tráfico total de cada captura y sobre los principales protocolos de las mismas (TCP y UDP).

Para el tráfico de las 11am.

Para el tráfico total

El tráfico capturado a las 11am tuvo un comportamiento en la media de 401725.90 bytes por segundo. Con una varianza de 14760160368.40 bytes2 por segundo2, con una variabilidad de 0.30, donde el pico máximo fue de 771624 bytes para un segundo.

Para los protocolos TCP

El tráfico capturado a las 11am tuvo un comportamiento con respecto al tráfico TCP como se muestra a continuación. En la media tuvo valores de 385384.80 bytes por segundo. Donde la varianza mostró el resultado de 14746723123.00 bytes2 por segundo2, con una variabilidad de 0.32 y donde el pico máximo fue de 745772 bytes para un segundo.

Para los protocolos UDP

El tráfico UDP, concerniente a la captura de las 11am tuvo un comportamiento, como se muestra a continuación. En la media tuvo valores de 15880.80 bytes por segundo. Con respecto a la varianza de 17355786.10 bytes2 por segundo2, con una variabilidad de 0.26 y donde el pico máximo fue de 32744 bytes para un segundo.

Para el tráfico de las 3pm.

Para el tráfico total

El tráfico capturado a las 3pm tuvo un comportamiento en la media de 382849.20 bytes por segundo. Con una varianza de 3529805679.50 bytes2 por segundo2, con una variabilidad de 0.16, donde el pico máximo fue de 630366 bytes para un segundo.

Para los protocolos TCP

El tráfico capturado a las 3pm tuvo un comportamiento con respecto al tráfico TCP como se muestra a continuación. En la media tuvo valores de 371514.90 bytes por segundo. Con respecto a la varianza de 3565776479.24 bytes2 por segundo2, con una variabilidad de 0.16 y donde el pico máximo fue de 620611 bytes para un segundo.

Para los protocolos UDP

El tráfico UDP, concerniente a la captura de las 3pm tuvo un comportamiento, como se muestra a continuación. En la media tuvo valores de 10692.05 bytes por segundo. Con respecto a la varianza de 14484086.36 bytes2 por segundo2, con una variabilidad de 0.36 y donde el pico máximo fue de 28278 bytes para un segundo.

Cálculo de la Autosimilaridad.

Método Gráfico R/S para las 11am.

Aplicando el método R/S Plot, (descrito en el capítulo 2), para el cálculo de la autosimilaridad, sobre la captura correspondiente a las 11am, se obtuvieron los siguientes resultados. Para el tráfico total capturado a las 11am, se registró un valor de H cercano a los 0.75. Así mismo, se obtuvo un resultado alrededor H=0.75, para el protocolo TCP, correspondiente. El análisis sobre el protocolo UDP, mostró valores de autosimilaridad, por el orden de los 0.65 para H. Estos resultados muestran un comportamiento autosimilar en las series correspondientes al tráfico medido a las 11am y los principales protocolos asociados a este.

Otro aspecto de importancia es que el estadígrafo (V) del algoritmo R/S, usado con el fin de encontrar comportamiento cíclicos en las series, a partir de cambios de inflexiones en la curva que genera el proceso, tal como se muestra en el capítulo 2, epígrafe 2.2, mostró que la serie no tiene ciclos, lo cual es un buen resultado, ya que de arrojar resultados contrarios, esto remitiría a la búsqueda de caos en la serie (Anexo 2).

Para ilustrar, de manera más exacta, de los resultados arrojados por el algoritmo, a continuación se muestra una tabla con los resultados obtenidos, además de las gráficas de las regresiones que generaron los resultados expuestos.

R/S para 11am	Tráfico total 11am	Tráfico TCP 11am	Tráfico UDP 11am
Nivel de autosimilaridad	H=0.768135	H=0.767406	H=0.669915

Tabla 1. Resultados arrojados por el algoritmo R/S para las mediciones de las 11am.

edu.red

Figura 13. Gráfica del ajuste del método R/S para el tráfico total a las 11am.

edu.red edu.red

Figura 14. Gráfica del ajuste del algoritmo R/S para el tráfico TCP a la izquierda y UDP a la derecha, correspondientes a la medición de las 11am.

A modo de conclusión, se puede decir que el ajuste es bastante fidedigno, ya que no se observan en la gráfica puntos distantes o atípicos, resultado de ruidos en los datos o elementos que puedan minimizar la fiabilidad en el método.

Estadígrafo V para las 11am.

Continuando con la idea de ilustrar lo resultados obtenido con el método R/S sobre el tráfico capturado a las 11am, se muestra a continuación la gráfica generada por el estadígrafo V, usado para determinar ciclos en la serie.

edu.red

Figura 15. Gráfico generado por el estadígrafo V para las 11am.

Tal como se ve en la gráfica la tendencia central es al crecimiento y aunque hay un punto que difiere de este comportamiento, esto no se puede ver como un cambio de inflexión en la curva, sino como un punto atípico, por lo que se concluye, que la serie correspondiente con la captura de las 11am, no presenta un comportamiento cíclico.

Método Gráfico R/S para las 3pm.

Continuando con el algoritmo R/S Plot, analizando el tráfico capturado a las 3pm. Se puede observar, que para esta captura el método también muestra autosimilaridad, lo que en niveles un poco más discretos que para la medición realizada a las 11am. Para ilustrar, de forma exacta, los resultados arrojados por el método R/S sobre los cuales se soporta el comentario anterior a continuación se muestra una tabla con los resultados arrojados para el tráfico total y los protocolos TCP y UDP y las gráficas que generan dichos resultados.

Tabla 2. Resultados arrojados por el algoritmo R/S para las mediciones de las 3pm.

R/S para 3pm	Tráfico total 3pm	Tráfico TCP 3pm	Tráfico UDP 3pm
Nivel de autosimilaridad	H=0.623974	H=0.625354	H=0.637604

edu.red

Figura 16. Gráfica del ajuste del método R/S para el tráfico total a las 3pm.

edu.red edu.red

Figura 17. Gráfica del ajuste del algoritmo R/S para el tráfico TCP a la izquierda y UDP a la derecha, correspondiente a la captura de las 3pm.

Aunque los niveles de autosimilaridad para el tráfico correspondiente a la captura de las 3pm, son un poco menores que los encontrados en la captura realizada a las 11am, se puede decir que los ajustes son bastante buenos, donde casi todos los puntos de la regresión están cercanos a la recta. No obstante los resultados arrojados, están en correspondencia con los reportados en la literatura [21, 44]. Estos resultados están en completo acuerdo con las conclusiones obtenidas en el capítulo 3, epígrafe 3.4 a partir de la apariencia autosimilar que mostraban las figuras (12) correspondientes a los tráficos de las 11am para la figura de la izquierda y las 3pm, correspondiente a la figura de la derecha.

Estadígrafo V para las 3pm.

El estadígrafo V arrojó resultados acorde con lo esperado, ya que si en el tráfico de la mañana no existían ciclos, tampoco son de esperar en el horario de la tarde. Para apoyar la idea, se muestra a continuación el gráfico concerniente al estadígrafo V para todo el tráfico capturado a las 3pm. Como podrá verse, aunque esta gráfica es más dispersa, la tendencia, es al crecimiento y no hay nada que indique que este comportamiento, pueda cambiar, por lo que se asegura que el estadígrafo V, no muestra ciclos o comportamientos periódicos en esta serie.

edu.red

Figura 18. Gráfico generado por el estadígrafo V para las 3pm.

Método de Regresión sobre el Periodograma para las 11am.

Este método está explicado en el capítulo 2, epígrafe 2.3. El mismo se basa en hallar el periodograma o espectro muestral de la serie y graficarlo en una regresión logarítmica contra el valor de lambda correspondiente. Los resultados obtenidos mediante esta prueba son de gran ayuda para comparar los obtenidos por el método anterior. Este algoritmo tiene la deficiencia de que el mismo basa sus resultados en suponer una estructura para el espectro de potencia para frecuencias cercanas al origen. Estos resultados, pueden verse afectados tanto al acercarse demasiado al origen producto de las fluctuaciones propias del periodograma, como por alejarse demasiado de este, es decir para altas frecuencias el propio método introduce cotas o sesgos en los resultados, producto de los efectos SRD explicados en el capítulo 1 epígrafe 1.4.2.

Los resultados que se obtuvieron a través de este método aplicado al tráfico de las 11am avalan los que se muestran en el epígrafe 4.5.3 con el método R/S sobre este mismo tráfico. Para ilustrar este criterio se muestran a continuación los resultados obtenidos en forma de tabla, además de las gráficas generadas por el método.

Tabla 3. Resultados arrojados por el método del periodograma para las mediciones de las 11am.

Periodograma para 11am	Tráfico total 11am	Tráfico TCP 11am	Tráfico UDP 11am
Nivel de autosimilaridad	H=0.761988	H= 0.7646304	H= 0.661351
Varianza	s2 = 0.00047	s2 = 0.00075	s2 = 0.00051

Como tal estos resultados son bastante parecidos a los datos obtenidos por el método R/S, lo que representa una muestra de la eficacia de los métodos seleccionados para el trabajo.

edu.red

Figura 19. Gráfica del método del periodograma para el tráfico total a las 11am.

edu.red edu.red

Figura 20. Gráfica del método del periodograma para el tráfico TCP a la izquierda y UDP a la derecha correspondiente a la captura de las 11am.

Aunque a simple vista, no se puede dar un criterio respecto a la calidad de los ajustes en ninguno de los casos, si se puede observar que, la recta generada por el ajuste lineal a grandes rasgos coincide con la tendencia del proceso.

Método de Regresión sobre el Periodograma para las 3pm.

Para el tráfico de la 3pm el método de regresión sobre el periodograma arrojó resultados análogos con los que se obtuvieron en el epígrafe anterior para el tráfico de las 11am. Es decir que los resultados obtenidos están acordes con los que mostró el método R/S, para ambas capturas. En la tabla a continuación se muestran los valores de autosimilaridad obtenidos para el tráfico de las 3pm.

Tabla 4. Resultados arrojados por el método del periodograma para las mediciones de las 3pm.

Periodograma para 3pm	Tráfico total 3pm	Tráfico TCP 3pm	Tráfico UDP 3pm
Nivel de autosimilaridad	H=0.621022	H= 0.628712	H= 0.638120
Varianza	s2 = 0.00022	s2 = 0.00034	s2 = 0.00014

Como se puede apreciar estos resultados son muy parecidos a los obtenidos en la tabla (1) del epígrafe 4.5.2. Como se vio en el párrafo anterior, estos resultados avalan la eficacia de los métodos planteados. Lo que muestra una idea del comportamiento de la autosimilaridad para ambas mediciones.

edu.red

Figura 21. Gráfica del método del periodograma para el tráfico total a las 3pm.

edu.red edu.red

Figura 22. Gráfica del método del periodograma para el tráfico TCP a la izquierda y UDP a la derecha correspondiente a la captura de las 3pm.

Como puede observarse, los ajustes lineales de las regresiones siguen sin ser obvios a simple vista, no obstante estas marcan de forma general la tendencia del proceso y los resultados arrojados por estas están en acuerdo totalmente con los resultados obtenidos, por el método anterior.

Método de Whittle Local.

Aunque el método de Whittle Local es una variante del método de Whittle, creado con el objetivo de ser menos riguroso en el consumo de recursos computacionales y ser, más flexible en cuanto a la forma del espectro, según se explica en el capítulo 2, epígrafe 2.3. El mismo sigue siendo un método bastante robusto en el sentido del consumo de recursos. Por tal motivo hubo de discretizar la serie original en intervalos de 1 segundo, lo que minimizó el tamaño de esta hasta un largo de (300) es decir la cantidad de segundos que se capturaron en cada medición. Esto remite irremediablemente a la idea de que a menor longitud de la serie, los resultados arrojados por los métodos, serán menos fidedignos. Motivo este por el cual con este método se pueden hallar en algunos casos, pequeñas diferencias, con respecto a los resultados obtenidos anteriormente para ambas capturas.

Aunque este método carece de una salida gráfica como los anteriores si se pueden observar los resultados arrojados a través de la siguiente tabla, con los valores correspondientes para cada captura, con respecto al tráfico total y los protocolos analizados TCP y UDP.

Tabla 5. Resultados arrojados por el método Whittle Local con respecto a ambas capturas.

Valor de autosimilaridad con respecto a las capturas	Valor de H para el tráfico total	Valor de H para el tráfico TCP	Valor de H para el tráfico UDP
H para la captura de las 11am	H=0.76583	H=0.76625	H= 0.658
Varianza de H 11am	s2=0.00057	s2=0.00058	s2= 0.00040
H para la captura de las 3pm	H= 0.63312	H= 0.641875	H= 0.643
Varianza de H 3pm	s2= 0.00037	s2= 0.00020	s2= 0.00036

Como se puede ver las principales diferencias entre los resultados arrojados por el método de Whittle Local expuestas en la tabla anterior son con respecto al UDP de la captura de las 11am y por lo general con los resultados obtenidos con anterioridad para la captura realizada a las 3pm. Estas diferencias en los resultados responden directamente al tamaño de las series temporales y los valores de estas, ya que tanto la serie generada por el protocolo UDP correspondiente a la captura de las 11am, como las tres series correspondientes al tráfico total y los protocolos analizados (TCP y UDP) son bastante pequeñas para este tipo de análisis en general. No obstante las diferencias encontradas en los resultados son bastante pequeñas, que no superan en ningún caso el 3% por lo que se pueden considerar como admisibles.

Conclusiones.

A modo de conclusiones, podemos decir que el tráfico total capturado, presenta características autosimilares o fractales, avalado por 3 métodos distintos, lo que minimiza bastante el margen de error de este criterio. Así mismo se puede decir que el esquema de protocolos que conforman este tráfico, también presenta características autosimilares o fractales, lo que induce al criterio que el tráfico del nodo presenta características autosimilares con parámetros de autosimilaridad H, que se comportan entre (0.6

Partes: 1, 2, 3, 4

Página anterior

Volver al principio del trabajo

Página siguiente