Descargar

Ensamblador y lenguaje ensamblador

Enviado por Pablo Turmero


    edu.red

    Lenguaje máquina El ordenador sólo entiende un lenguaje muy restringido y de bajo nivel llamado lenguaje máquina

    El lenguaje máquina depende del procesador • Existe una incompatibilidad innata entre los distintos procesadores

    – Constituye una de las características más importantes de su arquitectura • El lenguaje máquina establece las capacidades básicas del computador • El lenguaje máquina está formado por un conjunto de instrucciones máquina

    – Cada instrucción tiene una representación determinada en forma de bits, almacenados en memoria

    – Los distintos tipos de representación se denominan formato de instrucción

    edu.red

    Lenguaje máquina Propiedades de las instrucciones máquina

    – Realizan una única y sencilla función ? su decodificación es sencilla – Utilizan un número fijo de operandos – Su codificación en bits es bastante sistemática ? decodificación más fácil – Son autocontenidas • Contienen toda la información necesaria para su ejecución • Su interpretación no depende de su posición en el programa o en la memoria – Son independientes • No requieren de la información de otras instrucciones para ejecutarse • De transferencia de información • Transferencia de control • Aritméticas • Lógicas • Comparación • Desplazamiento • Acceso a bits individuales • De entrada/salida • Misceláneas

    edu.red

    Lenguaje máquina Formatos de instrucción máquina

    • Cada instrucción debe contener la siguiente información • Operación a realizar • Dirección de los operandos • Dirección del resultado • Dirección de la siguiente instrucción • Modo de representación de los operandos • Un formato es un conjunto de bits que contiene dicha información

    – La longitud del formato es el número de bits que lo componen – Su estructura es el el significado de cada bit dentro de la instrucción

    edu.red

    Lenguaje máquina • Los formatos se dividen en campos – Cadenas de bits contiguos

    • Tipos básicos de campos – Código de operación • Indica la operación a realizar – Dirección (uno o varios) • Indica la dirección de un dato, un resultado o una instrucción

    edu.red

    Ensamblador Al desarrollarse las primeras computadoras electrónicas, se vio la necesidad de programarlas, es decir, de almacenar en memoria la información sobre la tarea que iban a ejecutar. Las primeras se usaban como calculadoras simples; se les indicaban los pasos de cálculo, uno por uno.

    John Von Neumann desarrolló el modelo que lleva su nombre, para describir este concepto de "programa almacenado". En este modelo, se tiene una abstracción de la memoria como un conjunto de celdas, que almacenan simplemente números. Estos números pueden representar dos cosas: los datos, sobre los que va a trabajar el programa; o bien, el programa en sí.

    ¿Cómo es que describimos un programa como números? Se tenía el problema de representar las acciones que iba a realizar la computadora, y que la memoria, al estar compuesta por switches correspondientes al concepto de bit, solamente nos permitía almacenar números binarios.

    La solución que se tomó fue la siguiente: a cada acción que sea capaz de realizar nuestra computadora, asociarle un número, que será su código de operación (opcode) . Por ejemplo, una calculadora programable simple podría asignar los opcodes : 1 = SUMA, 2 = RESTA, 3 = MULTIPLICA, 4 = DIVIDE

    edu.red

    Ensamblador La descripción y uso de los opcodes es lo que llamamos lenguaje de máquina . Es decir, la lista de códigos que la máquina va a interpretar como instrucciones, describe las capacidades de programación que tenemos de ella; es el lenguaje más primitivo, depende directamente del hardware, y requiere del programador que conozca el funcionamiento de la máquina al más bajo nivel.

    Cuando abstraemos los opcodes y los sustituimos por una palabra que sea una clave de su significado, a la cual comúnmente se le conoce como mnemónico , tenemos el concepto de Lenguaje Ensamblador . Así, podemos definir simplemente al Lenguaje Ensamblador de la siguiente forma:

    Lenguaje Ensamblador es la primera abstracción del Lenguaje de Máquina , consistente en asociar a los opcodes palabras clave que faciliten su uso por parte del programador

    edu.red

    Ensamblador Como se puede ver, el Lenguaje Ensamblador es directamente traducible al Lenguaje de Máquina, y viceversa; simplemente, es una abstracción que facilita su uso para los seres humanos. Por otro lado, la computadora no entiende directamente al Lenguaje Ensamblador; es necesario traducirle a Lenguaje de Máquina. Originalmente, este proceso se hacía a mano, usando para ello hojas donde se escribían tablas de programa similares al ejemplo de la calculadora que vimos arriba . Pero, al ser tan directa la traducción, pronto aparecieron los programas Ensambladores, que son traductores que convierten el código fuente (en Lenguaje Ensamblador) a código objeto (es decir, a Lenguaje de Máquina).

    Una característica que hay que resaltar, es que al depender estos lenguajes del hardware, hay un distinto Lenguaje de Máquina (y, por consiguiente, un distinto Lenguaje Ensamblador) para cada CPU.

    edu.red

    Ensamblador Ventajas y desventajas del Lenguaje Ensamblador

    Una vez que hemos visto la evolución de los lenguajes, cabe preguntarse: ¿En estos tiempos "modernos", para qué quiero el Lenguaje Ensamblador?

    El proceso de evolución trajo consigo algunas desventajas, que ahora veremos como las ventajas de usar el Lenguaje Ensamblador, respecto a un lenguaje de alto nivel: Velocidad Eficiencia de tamaño Flexibilidad

    Por otro lado, al ser un lenguaje más primitivo, el Ensamblador tiene ciertas desventajas respecto a los lenguajes de alto nivel: Tiempo de programación Programas fuente grandes Peligro de afectar recursos inesperadamente Falta de portabilidad

    edu.red

    Proceso de ensamblado

    edu.red

    Proceso de ensamblado TASM: Ensamblador Se le llama ensamblador no sólo al lenguaje; sino también al programa que traduce el código fuente escrito en ensamblador, a código objeto, equivalente a los opcodes en lenguaje de máquina. En el caso de 8086 y familia, el ensamblador, sea TASM (Borland) o MASM (Microsoft), se encarga de generar los archivos .OBJ que representan el código de máquina asociado al programa fuente en ensamblador.

    La sintaxis básica para su uso es:

    TASM {opciones}

    En el nombre del programa, podemos omitir la extensión .ASM, que es la que tenemos por defecto.

    edu.red

    Proceso de ensamblado Por ejemplo, para ensamblar el programa HOLA.ASM, basta la siguiente línea de comandos:

    C> TASM HOLA

    En las opciones se puede controlar el proceso de ensamblado, para que genere información adicional o cambie su forma de operación. Las dos más útiles para este curso serán:

    /la Genera un archivo, adicional al .OBJ, con extensión .LST, que muestra un listado detallado del proceso de ensamblado. Entre otras cosas, muestra la asociación existente entre el código fuente y los opcodes generados.

    edu.red

    Proceso de ensamblado /zi Almacena información de símbolos junto con el programa objeto, útil para que el depurador permita ejecutar el código objeto en sincronía con el código fuente. Así, se recomienda que durante el desarrollo de un programa se ejecute TASM con una línea de comandos similar a la siguiente:

    C> TASM HOLA /zi /la

    En algunas versiones las opciones deben ponerse previamente, por ejemplo:

    C> TASM /zi /la HOLA

    edu.red

    Proceso de ensamblado TLINK: Linker

    Un archivo .OBJ, si bien contiene ya todo el código de máquina, no puede ser ejecutado todavía por el sistema operativo, pues no contiene información necesaria para el mismo, tal como la memoria requerida. Esto se coloca en un encabezado, que es leído por el sistema para determinar cómo ejecutar el programa. Por otro lado, cuando hacemos un programa en varios módulos, no solamente existe un código objeto sino varios, que debemos combinar o relacionar entre sí.

    Estos procesos son llevados a cabo por el TLINK; el cual toma como entrada uno o varios archivos .OBJ y genera los archivos ya ejecutables por el sistema, con extensión .COM o .EXE. Desde el sistema operativo 4.0 se está buscando eliminar a los archivos .COM, por sus limitaciones; por lo cual, en general no se trabaja con ellos en este curso.

    edu.red

    Proceso de ensamblado Se ejecuta en forma similar al TASM, desde la línea de comandos ("prompt"):

    La sintaxis básica para su uso es:

    TLINK {opciones}

    En el nombre del programa, podemos omitir la extensión .OBJ, que es la que tenemos por defecto.

    Por ejemplo, para ligar el código objeto generado anteriormente HOLA.OBJ, basta la siguiente línea de comandos:

    C> TLINK HOLA

    En las opciones se puede controlar el proceso de ligado. La opción que generalmente se utiliza más es:

    edu.red

    Proceso de ensamblado /v Almacena información de símbolos junto con el programa ejecutable, útil para que el depurador permita ejecutar el código objeto en sincronía con el código fuente. Cuidado: Esta opción debe ponerse en minúsculas, estrictamente. Así, se recomienda que durante el desarrollo de un programa se ejecute TLINK con una línea de comandos similar a la siguiente:

    C> TLINK HOLA /v

    También aquí a veces se requiere de poner las opciones antes, como por ejemplo:

    C> TLINK /v HOLA

    edu.red

    Proceso de ensamblado Otros puntos que intervienen en el proceso de ensamblado:

    – MAKE: Reglas de construcción

    – TD: Depuración

    – TPROF: Pruebas de eficiencia

    edu.red

    Lenguaje ensamblador. 1era parte EL FORMATO DEL ENSAMBLADOR.

    De acuerdo a las convenciones y notación seguidas en el manual del Microsoft Macro Assembler, y que usaremos nosotros también, tenemos:   Notación Significado                                                  Negritas Comandos, símbolos y parámetros a ser usados como se muestra. Itálicas Todo aquello que debe ser reemplazado por el usuario [ ] Indican un parámetro opcional ,,, Denota un parámetros que puede repetirse varias veces ¦ Separa dos valores mutuamente excluyentes letra chica Usada para ejemplos. Código y lo que aparece en pantalla.    

    edu.red

    Lenguaje ensamblador. 1era parte Cada programa en lenguaje ensamblador es creado a partir de un archivo fuente de código ensamblador. Estos son archivos de texto que contienen todas las declaraciones de datos e instrucciones que componen al programa y que se agrupan en áreas o secciones, cada una con un propósito especial. Las sentencias en ensamblador tienen la siguiente sintaxis:   [nombre] mnemónico [operandos] [;comentarios]     En cuanto a la estructura, todos los archivos fuente tienen la misma forma: cero o más segmentos de programa seguidos por una directiva END. No hay una regla sobre la estructura u orden que deben seguir las diversas secciones o áreas en la creación del código fuente de un programa en ensamblador.

    edu.red

    Lenguaje ensamblador. 1era parte Sin embargo la mayoría de los programas tiene un segmento de datos, un segmento de código y un segmento de stack, los cuales pueden ser puestos en cualquier lugar.   Para la definición de datos y declaración de instrucciones y operandos el MASM reconoce el conjunto de caracteres formado por letras mayúsculas, letras minúsculas (excluyendo caracteres acentuados, ñ, Ñ), números, y los símbolos: ? @ _ $ : . [ ] ( ) ‹ › { } + – / * & % ! ´ ~ ¦ = # ˆ ; , " ‘   La declaración de números requiere tener presente ciertas consideraciones. En el MASM un entero se refiere a un número entero: combinación de dígitos hexadecimales, octales, decimales o binarios, más una raíz opcional. La raíz se especifica con B, Q u O, D, o H. El ensamblador usará siempre la raíz decimal por defecto, si se omite la especificación de la raíz (la cual se puede cambiar con la directiva .RADIX). Así nosotros podemos especificar un entero de la siguiente manera: dígitos, dígitosB, dígitosQ o dígitosO, dígitosD, dígitosH. Si una D o B aparecen al final de un número, éstas siempre se considerarán un indicador de raíz, e.g. 11B será tratado como 112 (210), mientras que si se trata del número 11B16 debe introducirse como 11Bh.

    edu.red

    Lenguaje ensamblador. 1era parte Para los números reales tenemos al designador R, que sólo puede ser usado con números hexadecimales de 8, 16, ó 20 dígitos de la forma dígitosR. También puede usarse una de las directivas DD, DQ, y DT con el formato [+¦-]dígitos.dígitos[E[+¦-]igitos].   Las cadenas de carácter y constantes alfanuméricas son formadas como ´caracteres´ o "caracteres" . Para referencias simbólicas se utilizan cadenas especiales denominadas nombres. Los nombres son cadenas de caracteres que no se entrecomillan y que deben comenzar con una A..Z ¦ a..z ¦ _ ¦ $ ¦ @ los caracteres restantes pueden ser cualquiera de los permitidos, y solamente los 31 primeros caracteres son reconocidos.

    edu.red

    Lenguaje ensamblador. 1era parte DIRECTIVAS.   El MASM posee un conjunto de instrucciones que no pertenecen al lenguaje ensamblador propiamente sino que son instrucciones que únicamente son reconocidas por el ensamblador y que han sido agregadas para facilitar la tarea de ensamblado, tanto para el programador como para el programa que lo lleva a cabo. Dichas instrucciones son denominadas directivas. En general, las directivas son usadas para especificar la organización de memoria, realizar ensamblado condicional, definir macros, entrada, salida, control de archivos, listados, cross-reference, direcciones e información acerca de la estructura de un programa y las declaraciones de datos. El apéndice D proporciona una lista completa de estas directivas.   Conjunto de instrucciones.- Dentro de las directivas más importantes, tenemos las que establecen el conjunto de instrucciones a soportar para un microprocesador en especial:

    edu.red

    Lenguaje ensamblador. 1era parte .8086(defecto).- Activa las instrucciones para el 8086 y 8088 e inhibe las del 80186 y 80286. .8087(defecto).- Activa instrucciones para el 8087 y desactiva las del 80287. .186.- Activa las instrucciones del 80186. .286c.- Activa instrucciones del 80286 en modo no protegido. .286p.- Activa instrucciones del 80286 en modo protegido y no protegido. .287.- Activa las instrucciones para el 80287.

    Declaración de segmentos.- En lo que respecta a la estructura del programa tenemos las directivas SEGMENT y ENDS que marcan el inicio y final de un segmento del programa. Un segmento de programa es una colección de instrucciones y/o datos cuyas direcciones son todas relativas para el mismo registro de segmento. Su sintaxis es:

    nombre SEGMENT [alineación] [combinación] [´clase´] nombre ENDS

    edu.red

    Lenguaje ensamblador. 1era parte Fin de código fuente.- Otra directiva importante es la que indica el final de un módulo. Al alcanzarla el ensamblador ignorará cualquier otra declaración que siga a ésta. Su sintaxis es:   END [expresión]   la opción expresión permite definir la dirección en la cual el programa iniciará.   Asignación de segmentos.- La directiva ASSUME permite indicar cuales serán los valores por defecto que asumirán los registros de segmento. Existen dos formas de hacer esto:

    ASSUME registrosegmento:nombre,,, ASSUME NOTHING   NOTHING cancela valores previos.

    edu.red

    Lenguaje ensamblador. 1era parte Etiquetas.- Las etiquetas son declaradas   nombre:   donde nombre constituye una cadena de caracteres.   Declaración de datos.- Estos se declaran según el tipo, mediante la regla   [nombre] directiva valor,,,   donde directiva puede ser DB (bytes), DW (palabras), DD (palabra doble), DQ (palabra cuádruple), DT (diez bytes). También pueden usarse las directivas LABEL (crea etiquetas de instrucciones o datos), EQU (crea símbolos de igualdad) , y el símbolo = ( asigna absolutos) para declarar símbolos. Estos tienen la siguiente sintaxis: nombre = expresión nombre EQU expresión nombre LABEL tipo

    edu.red

    Lenguaje ensamblador. 1era parte donde tipo puede ser BYTE, WORD, DWORD, QWORD, TBYTE, NEAR, FAR.   Declaración de estructuras.- Para la declaración de estructuras de datos se emplea la directiva STRUC. Su sintaxis es:

    nombre STRUC campos nombre ENDS

    edu.red

    Lenguaje ensamblador. 2nda parte CONJUNTO DE INSTRUCCIONES.

    Los operandos permitidos se enlistan a continuación:   Constantes.- Pueden ser números, cadenas o expresiones que representan un valor fijo. Por ejemplo, para cargar un registro con valor constante usaríamos la instrucción MOV indicando el registro y el valor que cargaríamos dicho registro.   mov ax,9 mov al,´c´ mov bx,65535/3

    edu.red

    Lenguaje ensamblador. 2nda parte Relocalizables.- Por medio de un símbolo asociado a una dirección de memoria y que puede ser usado también para llamados.

    mov ax, value call main mov al,OFFSET dgroup:tabla

    edu.red

    Lenguaje ensamblador. 2nda parte Contador de localización.- Usado para indicar la actual localización en el actual segmento durante el ensamblado. Representado con el símbolo $ y también conocido como centinela.  

    help DB ´OPCIONES´,13,10 F1 DB ´ F1 salva pantalla´,13,10 . . . F10 DB ´ F10 exit´,13,10,´$ DISTANCIA = $-help

    edu.red

    Lenguaje ensamblador. 2nda parte Registros.- Cuando se hace referencia a cualquiera de los registros de propósito general, apuntadores, índices, o de segmento.

    Basados.- Un operador basado representa una dirección de memoria relativa a uno de los registros de base (BP o BX). Su sintaxis es:   desplazamiento[BP] desplazamiento[BX] [desplazamiento][BP] [BP+desplazamiento] [BP].desplazamiento [BP]+desplazamiento   en cada caso la dirección efectiva es la suma del desplazamiento y el contenido del registro.   mov ax,[BP] mov al,[bx] mov bx,12[bx] mov bx,fred[bp]

    edu.red

    Lenguaje ensamblador. 2nda parte Indexado.- Un operador indexado representa una dirección de memoria relativa a uno de los registros índice (SI o DI). Su sintaxis es:

    desplazamiento[DI] desplazamiento[SI] [desplazamiento][DI] [DI+desplazamiento] [DI].desplazamiento [DI]+desplazamiento   en cada caso la dirección efectiva es la suma del desplazamiento y el contenido del registro.   mov ax,[si] mov al,[di] mov bx,12[di] mov bx,fred[si]

    edu.red

    Lenguaje ensamblador. 2nda parte Base-indexados.- Un operador base-indexado representa una dirección de memoria relativa a la combinación de los registros de base e índice. Su sintaxis es:   desplazamiento[BP][SI] desplazamiento[BX][DI] desplazamiento[BX][SI] desplazamiento[BP][DI] [desplazamiento][BP][DI] [BP+DI+desplazamiento] [BP+DI].desplazamiento [DI]+desplazamiento+[BP]   en cada caso la dirección efectiva es la suma del desplazamiento y el contenido del registro.   mov ax,[BP][si] mov al,[bx+di] mov bx,12[bp+di] mov bx,fred[bx][si]

    edu.red

    Lenguaje ensamblador. 2nda parte Estructuras.- Su sintaxis es variable.campo. variable es el nombre con que se declaró la estructura, y campo es el nombre del campo dentro de la estructura.

    date STRUC mes DW ? dia DW ? aa DW ? date ENDS

    actual date ‹´ja´,´01´,´84´›

    mov ax,actual.dia mov actual.aa, ´85´

    edu.red

    Lenguaje ensamblador. 2nda parte Operadores y expresiones.- Se cuenta con los siguientes operadores:

    -aritméticos expresión1 * expresión2 expresión1 / expresión2 expresión1 MOD expresión2 expresión1 + expresión2 expresión1 – expresión2 + expresión – expresión   -de corrimiento expresión1 SHR contador expresión1 SHL contador

    edu.red

    Lenguaje ensamblador. 2nda parte -relacionales expresión1 EQ expresión2 expresión1 NE expresión2 expresión1 LT expresión2 expresión1 LE expresión2 expresión1 GT expresión2 expresión1 GE expresión2   – de bit NOT expresión expresión1 AND expresión2 expresión1 OR expresión2 expresión1 XOR expresión2   -de índice [expresión1] [expresión2]  

    edu.red

    Lenguaje ensamblador. 2nda parte ejemplos: mov al, string[3] mov string[last],al mov cx,dgroup:[1] ; igual a mov cx,dgroup:1   -de apuntador tipo PTR expresión   tipo puede ser BYTE ó 1, WORD ó 2, DWORD ó 4, QWORD ó 8, TBYTE ó 10, NEAR ó 0FFFFh, FAR ó 0FFFEh. Ejemplos:   call FAR PTR subrout3 mov BYTE ptr [array], 1 add al, BYTE ptr [full_word]

    -de nombre de campo estructura.campo   ejemplos: inc month.day mov time.min,0 mov [bx].dest

    edu.red

    Lenguaje ensamblador. 2nda parte -de propósito especial. OFFSET expresión.- Regresa el desplazamiento del operando mov bx, OFFSET dgroup:array mov bx, offset subrout3   SHORT etiqueta.- Para un salto de menos de 128 bytes jmp SHORT loop   LENGTH variable.- Regresa el número de elementos de variable según su tipo mov cx,length array   SIZE variable.- Regresa el tamaño en bytes alojados para variable mov cx,size array   SEG expresión.- Regresa el valor del segmento para expresión mov ax, SEG saludo

    edu.red

    Ejemplo “Hola mundo!!” Código

    ; HOLA.ASM ; Programa clásico de ejemplo. Despliega una leyenda en pantalla. STACK SEGMENT STACK ; Segmento de pila DW 64 DUP (?) ; Define espacio en la pila STACK ENDS   DATA SEGMENT ; Segmento de datos SALUDO DB "Hola mundo!!",13,10,"$" ; Cadena DATA ENDS   CODE SEGMENT ; Segmento de Código ASSUME CS:CODE, DS:DATA, SS:STACK   INICIO: ; Punto de entrada al programa MOV AX,DATA ; Pone dirección en AX MOV DS,AX ; Pone la dirección en los registros MOV DX,OFFSET SALUDO ; Obtiene dirección del mensaje MOV AH,09H ; Función: Visualizar cadena INT 21H ; Servicio: Funciones alto nivel DOS MOV AH,4CH ; Función: Terminar INT 21H CODE ENDS END INICIO ; Marca fin y define INICIO

    edu.red

    Ejemplo “Hola mundo!!” LA DESCRIPCIÓN DEL PROGRAMA ES COMO SIGUE:

    1.- Las declaraciones SEGMENT y ENDS definen los segmentos a usar.

    2.- La variable SALUDO en el segmento DATA, define la cadena a ser desplegada. El signo de dólares al final de la cadena (denominado centinela) es requerido por la función de visualización de la cadena de MS-DOS. La cadena incluye los códigos para carriage-return y line-feed.

    3.- La etiqueta START en el segmento de código marca el inicio de las instrucciones del programa.

    4.- La declaración DW en el segmento de pila define el espacio para ser usado por el stack del programa.

    edu.red

    Ejemplo “Hola mundo!!” 5.- La declaración ASSUME indica que registros de segmento se asociarán con las etiquetas declaradas en las definiciones de segmentos.

    6.- Las primeras dos instrucciones cargan la dirección del segmento de datos en el registro DS. Estas instrucciones no son necesarias para los segmentos de código y stack puesto que la dirección del segmento de código siempre es cargado en el registro CS y la dirección de la declaración del stack segment es automáticamente cargada en el registro SS.

    7.- Las últimas dos instrucciones del segmento CODE usa la función 4CH de MS-DOS para regresar el control al sistema operativo. Existen muchas otras formas de hacer esto, pero ésta es la más recomendada.

    8.- La directiva END indica el final del código fuente y especifica a START como punto de arranque.