Opciones de instrumentación de programas

Muchos de los métodos de software testing y análisis dinámico de programas (no necesariamente relacionados con seguridad) requieren insertar algunas instrucciones adicionales en el texto del programa para obtener información añadida, es decir, instrumentar el programa. Por ejemplo, una de las opciones a la hora de medir el rendimiento de una aplicación es añadir sentencias para leer el reloj al principio y al final de cada función de forma que se pueda calcular el tiempo que tarda en ejecutarse cada una y después optimizar las que tarden más de lo debido. Por poner otro ejemplo, dentro del proceso de software testing es un hábito muy común tener métricas de cobertura de código, dicho de otra forma, medir cuanto código está siendo realmente testeado. Para ello, si quisieramos comprobar si nuestros tests ejecutan todos los puntos de ramificación posibles (branch coverage), se podrían añadir al código sentencias que contasen el número de veces que se ha tomado cada rama (cuando la condición es true y cuando es false).

Por lo tanto, instrumentación se refiere a la técnica que consiste en añadir código extra a un programa, normalmente con el objetivo de recoger información sobre su comportamiento durante la ejecución y enviarla a rutinas de análisis que se encargan de manipular dicha información para llevar a cabo tareas que van desde profiling, detección de errores o debugging, hasta análisis de malware.

La instrumentación se puede llevar a cabo desde distintos niveles: directamente en el código fuente, en una representación intermedia como bytecode o LLVM IR, o a nivel de binario. Como curiosidad, en los últimos años se han desarrollado varias herramientas de detección de errores como MemorySanitizer que implementan una fase de instrumentación sobre la representación intermedia en tiempo de compilación.

Por otra parte, también es importante mencionar que la instrumentación puede ser estática o dinámica. En una situación en la que solo se dispone de un binario, se puede instrumentar de forma estática mediante binary rewriting como lo hacen herramientas como PEBIL, se puede hacer de forma dinámica sobrescribiendo instrucciones en memoria por trampolines que saltan al código de instrumentación, o siguiendo el concepto de Dynamic Binary Translation (de una ISA a la misma) como lo hace Intel Pin, por ejemplo. Cada uno de los métodos tiene sus ventajas e inconvenientes dependiendo de la tarea que se quiera llevar a cabo (analizar malware tiene requisitos de transparencia que algunas soluciones no pueden cumplir) y de lo recursos disponibles (no vamos a instrumentar el código fuente si no está disponible).

Oscar Llorente
Acerca de
Investigador de DT
Expertise: Scam, program analysis