Salte directo a la búsqueda Salte directo al listado de A-Z Salte directo a la navegación Salte directo al contenido Salte directo a las opciones de la página
Página principal

Limpieza y Preparación de Datos

La siguiente es una guía para el proceso de limpieza y preparación de datos:

1. Limpieza de datos

1.1 Limpieza de datos durante el trabajo de campo

1.2 Crítica y codificación de datos

1.3 Ingreso o Digitación de datos

1.4 Limpieza de datos Post-Digitación (Usando SPSS)

1.5 Consideraciones Generales para la limpieza de datos


2. Preparación de los archivos finales para el análisis

2.1 Generación del archivo final (mediante la sintaxis generada para SPSS)

1. Limpieza de datos

El propósito de la fase de limpieza de datos en una encuesta  es lograr datos válidos para realizar  un análisis más preciso de la realidad de una  población determinada.  La limpieza de datos no es un proceso aislado,  comienza desde que  el  trabajo de campo  inicia y continúa durante todo el proceso de recolección, ingreso y preparación de los archivos finales para el análisis. 

1.1 Limpieza de datos durante el trabajo de campo

La limpieza de los datos comienza desde que  los equipos de entrevistadoras (res) y/o supervisores (ras) de campo inician su tarea. En primer lugar,  identificando de manera correcta  y precisa  los segmentos de los estratos  seleccionados en la muestra;  luego, ubicando con exactitud  la vivienda o unidad  seleccionada para aplicar el cuestionario de la encuesta;  a continuación, seleccionando  correctamente  a la mujer en edad fértil a la cual aplicarán el cuestionario individual y, finalmente  recolectar la información de las personas entrevistadas en base a un trabajo honesto  y  registrando en forma precisa las respuestas  que la personas entrevistadas van respondiendo a cada pregunta planteada (Cada pregunta debe ser leída exactamente como está escrita en el cuestionario), para que la respuesta que se obtenga sea exactamente la que se necesita recabar para la posterior construcción de los indicadores y su análisis respectivo. 

El trabajo de supervisión es vital en el campo. Las personas a cargo de la supervisión se encargan de revisar los cuestionarios que van llegando del campo, los contabilizan y revisan que traigan la información completa en cada sección del cuestionario. Si un cuestionario lo requiere debe ser devuelto al campo para que sea completado correctamente. Y, finalmente los segmentos completos son entregados a la oficina y/o persona responsable del archivo y organización de los cuestionarios para que ingresen a la fase de crítica, codificación y digitación de la información.

1.2 Crítica y codificación de datos

Aún cuando el trabajo de campo está en camino (si la encuesta ha sido registrada en papel), regularmente  y en paralelo comienza también el trabajo de crítica,  codificación  y digitación de la información.

Si el cuestionario por sus características (Ej. si contiene preguntas abiertas) requiere el proceso de crítica y codificación. Este en un momento adicional, que ayuda a depurar las información que ha sido recogida en el campo, antes de que los cuestionarios sean digitados. El personal que trabaja en la crítica y codificación debe tener un conocimiento exhaustivo del contenido y flujo del cuestionario de modo que su experticia le permita detectar inconsistencias y en ese caso también un cuestionario debe ser devuelto al campo para que la persona que hizo la entrevista, haga los ajustes respectivos que sean requeridos. La fase de crítica y codificación debe estar regulada de tal manera que todas las personas que hacen el trabajo de codificación utilicen una guía de codificación uniforme que evite introducir inconsistencias en esta fase.

1.3 Ingreso o Digitación de datos

Mediante el uso de un programa desarrollado específicamente para la captura de datos de determinada encuesta. En el caso de las Encuestas de Salud Reproductiva, los programas de ingreso de datos de las encuestas más recientes han sido desarrollados en CSPRO. La limpieza de datos entra en una nueva fase. Aquí el control de la calidad de la información que está siendo ingresada, es validado mediante la aplicación de un chequeo lógico interno que verifica paso a paso el ingreso de los datos. El chequeo de consistencia está incluido en el programa de ingreso de datos  que controla no solo la lógica y el flujo de la información del cuestionario, sino también los rangos mínimos y máximos posibles a ingresar dentro de las categorías de respuesta de cada pregunta. Para referencia sobre controles, lógicos , saltos y rangos y chequeos de consistencias internas, vea el tutorial de CPSRO – Sección 2.4 Definición de Rangos y Categorías de Respuesta para cada Variable; la Sección 4.1 Programación de Pases o Saltos Automáticos; y, la Sección 4.3 Programar Chequeos de Consistencia de Datos en las Pantallas.

La limpieza de datos continúa su proceso aún después de terminado el trabajo de digitación de cada segmento. Cuando un digitador termina de entrar los datos de los cuestionarios que pertenecen a un segmento, es necesario pasar por un filtro de chequeo de inconsistencias adicional, mediante una aplicación “batch”  externa al programa de ingreso de datos, que incluye  una serie de controles lógicos de ida y vuelta, cruces de validación de variables y otros controles que validan y verifican la consistencia de la información a través de todo el cuestionario.

Para referencia descargue el ejemplo de una aplicación batch, explicada en una presentación de MS Power Point y en video formato *. WMV (Windows Media Video) desde los siguientes enlaces:

 

1.4 Limpieza de datos Post-Digitación (Usando SPSS)

Es muy conocido que muchos errores pueden ser cometidos durante la entrada de datos. Y es sabido también  que  mientras algunos errores son imposibles de detectar solamente mirando los datos en bruto, muchos pueden ser fácilmente detectados, encontrados y corregidos. Aquí hay varias maneras de encontrar y corregir, o limpiar, tantos errores en los datos como sea posible.

Antes de analizar el archivo de datos que usted reciba, hay  tres cosas importantes que usted debe saber. En primer lugar, rara vez  un archivo de datos es 100 por ciento libre de error. Dado  que su análisis es tan bueno como la calidad de sus datos, usted debe gastar algún tiempo para comprobar la exactitud y precisión del archivo.

En segundo lugar, las tareas de limpieza de datos tienden a ser más fáciles utilizando la sintaxis de SPSS. Los ejemplos que se han preparado, usan el código de programación de SPSS. Usted puede decidir hacer la búsqueda y corrección  de errores  usando la interfaz gráfica, sin embargo el código no es difícil de entender  y sobre todo ayuda a mantener un orden en el trabajo de limpieza de datos, así como también a documentar los errores encontrados y las correcciones que se realicen.

Por último, la limpieza de datos requiere un pensamiento claro y lógico, y debe ser abordado como un problema de lógica. Pero también, la persona que plantea la lógica debe conocer el instrumento (el cuestionario), de principio a fin y debe aplicar un criterio que evite incrementar errores en lugar de corregirlos.

Para referencia vea el ejercicio de limpieza de datos usando SPSS en el enlace:

 

1.5. Consideraciones Generales para la limpieza de datos

La fase de limpieza de datos en una encuesta es un proceso necesario para la revisión, la validación y el chequeo de consistencia de la información obtenida en el campo.  Por lo tanto se sugiere lo siguiente:

  1. La limpieza de datos debe comenzar desde la fase de trabajo de campo. Un buen trabajo por parte del personal de campo al momento de llenar la información y luego la supervisión de campo son indispensables en una encuesta  (Las revisitas al campo también son importantes cuando sea necesario)
  2. Terminado el trabajo de campo, en la fase de limpieza de datos, se debe verificar que todos los cuestionarios completados en el campo sean ingresados a la base de datos.
  3.  En el proceso de chequeo de consistencia, cuando se termina de ingresar un segmento (o un grupo de cuestionarios), se debe verificar el % de cuestionarios completos, incompletos, aquellos que no tienen una mujer seleccionada, viviendas desocupadas, etc.  Para tener una idea de la tasa de respuesta que se esta obteniendo del campo.  Mediante una frecuencia de la variable que almacena el resultado de entrevista se debe verificar la consistencia de la variable de resultado.
  4. El proceso de limpieza de datos debe verificar que la selección de la mujer a entrevistar (Si solo se selecciona una por hogar) sea correcta y se ajuste al modelo de selección establecido para la encuesta. Es imprescindible entrevistar a la mujer que ha sido seleccionada y no a cualquier mujer en el hogar (cuando se detecta un error en la selección, cambiar el número de cuestionario para recuperar información No es lo correcto).
  5.  Listar los casos que requieren verificación de resultado  en la categoría “Otro” cuando el porcentaje de “otras” respuestas es muy alto. Se debe imprimir lo especificado y revisar si la respuesta puede ser re-categorizada dentro de los códigos de respuesta ya existentes.
  6.  Verificar el promedio de entrevistas por supervisor, por entrevistadora, y por fechas para poder valorar el trabajo de campo.
  7.  Revisar los resultados de cada visita, para  determinar la consistencia del resultado final de entrevista.
  8.  Revisar que las fechas de entrevista estén bien digitadas y sean consistentes con las fechas de trabajo de campo (esto tiene incidencia en los cálculos de fechas y edades en procesos posteriores de creación de variables).
  9.  Durante el ingreso de la información es recomendable producir las Tasas de respuesta para medir como está respondiendo la gente a la encuesta (El porcentaje de personas que responden a la encuesta se considera la tasa de respuesta. Una tasa de respuesta alta ayuda a asegurar que los resultados del estudio son representativos de la población encuestada). Si la tasa de respuesta es muy baja, si es necesario se debe observar y analizar las causas y tomar medidas correctivas para lograr la mayor respuesta posible, respetando siempre la muestra seleccionada.
  10. Definir que dato no es limpio y porque: Dos son las fuentes de errores detectables: 1) los de entrada de datos y 2) los errores que vienen registrados en el cuestionario (errores hechos por la persona que hizo la entrevista o errores por parte de la persona entrevistada).  Los errores en la entrada de datos incluyen: errores al digitar,  escribir o  transcribir las respuestas erróneamente,  ingresar datos fuera de rango o dejar en blanco una respuesta cuando una respuesta válida si viene en el cuestionario, etc.  Los errores por parte de la entrevistadora o por parte de la persona entrevistada incluyen: no seguir con precisión un patrón de salto, escribir  una respuesta que es difícil de interpretar o dar respuestas falsas y que no tienen consistencia a través del cuestionario, etc. 
  11. Hacer una corrida general de frecuencias permite no solo registrar las frecuencias por cada variable y conocer los números con que se trabajará en el análisis, sino que también ayuda a visualizar que cada pregunta tenga resultados dentro de los rangos esperados y se puede verificar el número de casos que deben entrar y/o salir de cada pregunta, de acuerdo a los saltos lógicos. Esto es lo que se denomina consistencia de la información variable por variable.

Sin embargo, a pesar de ejecutar una serie de controles de datos, cuando ya ha “cerrado” la base de datos y ha declarado que tiene una base de datos final,  todavía puede encontrarse con algún error cuando esté produciendo cuadros y haciendo cruce de variables para incluir en su análisis. Lo más importante es que usted debe saber cómo identificar y corregir estos errores y documentar los ajustes que tenga que hacer, para que al final se pueda tener una base de datos consistente válida para el análisis y un archivo histórico de la encuesta.

De cualquier manera, examine los datos con un ojo crítico, y vea si las distribuciones tienen  sentido. Si no lo hacen, ejecute una vez más la limpieza de los datos, y vea si todavía persiste algún error. La mejor manera de limpiar un archivo es el análisis como tal.

La limpieza de datos puede ser realizada mediante la especificación de una lógica de programación que ayude a establecer los parámetros aceptables para cada variable y debe permitir la validación entre variables.  El software que se utilice para crear una sintaxis con la lógica de búsqueda de posibles errores, es definido por la persona que trabajara en este proceso. Una opción es usar SPSS que es un paquete que además de hacer el análisis permite crear una lógica de consistencia de información.  Si bien la identificación y corrección de errores puede ser más clara a través del lenguaje de comandos de SPSS, los principios son los mismos que si se utilizara los cuadros de diálogo, la única cosa es que la sintaxis permite guardar la evidencia de los errores encontrados y las soluciones o ajustes que se hicieron, esto para mantener una referencia y documentación de todo el proceso de limpieza de datos.


2. Preparación de los archivos finales para el análisis

Este proceso incluye los siguientes pasos:

1) La exportación de los datos desde CSPRO hacia SAS, SPSS, STATA. (Para referencia vea el tutorial de CSPRO Sección 6. Exportación de Datos a Diferentes Paquetes Estadísticos).

2) Incluye la creación de las variables de ponderación:
PESOVIV - define el peso relativo asignado para cada estrato en la muestra.
PESOMEF - variable de ponderación que se debe utilizar en todos los cálculos para las mujeres con una entrevista completa, que tiene en cuenta el peso de los estratos y el número de mujeres en edad reproductiva en el hogar (si sólo una mujer 15-49 o 15 a 44 fue seleccionada por cada hogar).

PESOHIJO - esta es otra variable de ponderación que se utiliza para el análisis de variables recogidas para un solo niño seleccionados al azar entre 5 (uso de preguntas a través de la sección del niño seleccionado - en el cuestionario). El uso de este peso da resultados que son representativos de todos los niños menores de 5 años (que compensa las probabilidades desiguales de selección).

3) Creación de variables nuevas basadas en las preguntas del cuestionario, que sirven para la elaboración de indicadores simples y complejos, así como también la producción de cuadros básicos para escribir un informe que resuma los resultados obtenidos (Ej. Base de datos RHS_creadas.sav).

4) Generación de bases de datos suplementarias requeridas para análisis específicos (ej. Archivo de hijos – RHS_hijos.sav)

2.1 Generación del archivo final (mediante la sintaxis generada para SPSS)

El Toolkit incluye una guía paso a paso sobre como generar la base de datos final para trabajar en el análisis de los datos.

Descargue un ejemplo de SPSS que describe la generación de un archivo de datos paso a paso en el siguiente enlace:

 

Para referencia acerca como generar la base de datos final descargue una presentación de MS Power Point y en un video formato *. WMV (Windows Media Video) desde los siguientes enlaces:

 

Volver al comienzo

Ícono de enlaces externosLos enlaces a organizaciones no federales se ofrecen solamente como un servicio a nuestros usuarios. Estos enlaces no constituyen un respaldo de los CDC ni del gobierno federal a estas organizaciones o a sus programas, ni debe inferirse respaldo alguno. Los CDC no se hacen responsables por el contenido de las páginas web de organizaciones individuales que pueda encontrar en estos enlaces.

Contáctenos:
  • Centros para el Control y la Prevención de Enfermedades
    1600 Clifton Rd
    Atlanta, GA 30333
  • 800-CDC-INFO
    (800-232-4636)
    TTY: (888) 232-6348
    24 Horas/Todos los días
  • cdcinfo@cdc.gov
GobiernoUSA.gov, el portal oficial del Gobierno de los EE.UU. en españolDepartamento de Salud y Servicios Humanos
Centros para el Control y la Prevención de Enfermedades   1600 Clifton Rd. Atlanta, GA 30329-4027, USA
800-CDC-INFO (800-232-4636) Línea TTY: (888) 232-6348 Comuníquese con CDC–INFO