Regresar a página principal de Diseño Muestral y Aplicación de Pesos de Análisis
Regresar a 2. Selección de Muestras
Guía de Muestreo para las Encuestas de Salud Reproductiva con Asistencia Técnica de CDC
3. Cálculo de los Pesos de Análisis
Como se ha señalado, si los entrevistados tienen diferentes probabilidades de selección el análisis debe ser ponderado para tomar en cuenta esa probabilidad desigual de selección. El peso que toma en cuenta estas probabilidades de selección se conoce como peso de diseño. Ajustes adicionales se pueden hacer después de calcular el peso de diseño para tomar en cuenta las tasas de no respuesta diferencial (pesos de no respuesta) o para ajustar los datos para obtener una distribución de la muestra ponderada consistente con otra fuente externa de información, como las tabulaciones del censo o una proyección de población (pesos de ajuste posterior a la estratificación). Cada uno de estos se discutirá más adelante.
3.1 Pesos de Diseño
Las probabilidades de selección se discutieron en cada etapa de selección en la sección anterior. Como recordatorio, en la notación usada aquí h se refiere a los estratos, i a las UPM dentro de los estratos, j a los hogares dentro de las UPM, k a las mujeres dentro de los hogares, y l a los nacidos vivos que tienen las mujeres. En las fórmulas de probabilidad que se presentan a continuación, se utiliza las siguientes cantidades para calcular las probabilidades de selección.
Mh = total de hogares (o viviendas) en el estrato h según el último censo
nh = número de UPM seleccionadas en el estrato h
npch = número de hogares seleccionados por conglomerado en el estrato h
Mhi = número de hogares (o viviendas) en la UPM i del estrato h según el último censo
Mhi ' = número de hogares en la UPM i del estrato h según la lista actualizada de hogares en las UPM seleccionadas.
Whij = número de mujeres de edad fértil (MEF) en el hogar j de la UPM i en el estrato h
bhijk = número de nacimientos en el período de referencia para la mujer k del hogar j en PSU i del estrato h.
De estas cantidades, Whij y bhijkl se obtienen en el proceso de realización de entrevistas de los hogares e individuales, tal que se incluyen en el archivo de datos que se genera durante la entrada de datos. Las otras cantidades, sin embargo, no se encuentran en este archivo de datos, y debe tenerse cuidado al registrar esta información sobre las UPM seleccionadas mientras la muestra se está diseñando y seleccionando.
Las probabilidades de selección correspondientes a cada etapa de selección son:
Primera etapa: Pr (seleccionar UPM i en el estrato h) = Phi = (nh )(Mhi)/(Mh ).
Segunda etapa: Pr (seleccionar hogar j en UPM i del estrato h) = Phij = Phi(npch /Mhi ')
Tercera etapa: Pr (seleccionar mujer k en hogar j en UPM i del estrato h) = Phijk = Phij (1/whij )
Cuarta etapa (si se hace): Pr (seleccionar nacimiento l de mujer k en el hogar j en UPM i del estrato h)= Phijkl = Phijk(1/bhijk )
Las unidades de análisis para las RHS son los hogares (o viviendas), las mujeres y los nacimientos. Los pesos de diseño que se asigna a los hogares se calculan en una hoja electrónica externa a la base de datos que se crea al digitar los cuestionarios. Los pesos de diseño para las mujeres seleccionadas al azar (y para los nacimientos, si es que se selecciona a un nacido vivo para el contenido de la salud) en general están definidos en el programa que crea el archivo de análisis para el estudio (el cual se puede hacer en SPSS, SAS o STATA).
3.1.1 Pesos de Diseño del Hogar
El peso de diseño del hogar es inversamente proporcional a la probabilidad de selección del hogar. Consideremos primero la situación en la cual la muestra de la RHS se seleccionó directamente de un censo.
3.1.1.1 Pesos de diseño del hogar cuando la muestra se obtiene directamente de un censo
Suponiendo que la muestra se selecciona directamente desde el censo o marco muestral, la expresión general para calcular el peso del hogar es:
PESOVIVhi = 1 / [((nh )(Mhi )/(Mh )) (npch /Mhi ')]*constante,
que representa el inverso de la probabilidad de selección del hogar multiplicada por una constante, que es un factor de escala que se puede multiplicar por todos los pesos del hogar en todos los estratos con el fin de lograr un número total deseado de todos los pesos en la muestra. Esta expresión puede reordenarse para obtener:
PESOVIVhi = [Mh /(nh* npch )][Mhi'/Mhi ]*constante
En esta expresión el primer componente es la proporción que resulta de dividir el número de hogares en el estrato (según el censo) entre el número de hogares de ese estrato en la muestra. Este primer componente de la expresión es el mismo para todos los hogares de cada estrato (es decir, el subíndice i no entra en este componente). El segundo componente es el cociente de dividir el número de hogares en la UPM según la actualización cartográfica entre el número de hogares en la UPM según el censo. Este valor puede variar de UPM a UPM y refleja los cambios en el número de hogares (y de la población) en la UPM entre el momento del censo y la actualización cartográfica de las UPM seleccionadas para la encuesta. Cuando esta expresión se utiliza para calcular el peso de diseño del hogar habrá un peso que se calcula por separado para cada UPM de la muestra, y todos los hogares en cada UPM tendrán el mismo peso del hogar. En el Cuadro 11, se incluye un ejemplo de cómo se calcula los pesos específicos de las UPM dentro de un estrato de la muestra. Este procedimiento tendría que repetirse hasta calcular los pesos de todas las UPMs de la muestra.
Haga click aquí para ver el Cuadro 11 en MS Excel
Si la encuesta se realiza en un período relativamente corto después del censo (3 años o menos) y hay pocas razones para esperar cambios en la distribución de la población, entonces puede ser razonable suponer que este segundo componente de la expresión sea igual a uno. Esto sería equivalente a suponer que todos los hogares del estrato tuvieron la misma probabilidad de selección. En este caso la expresión se reduce a:
PESOVIVh = [Mh /(nh*npch )]*constante
Esta simplificación es el resultado de la selección de las UPM con una probabilidad proporcional a su tamaño en la primera etapa, combinado con la selección de un número constante de hogares por UPM en la segunda etapa. En este caso todos los hogares en un estrato tendrían el mismo peso de diseño y el número diferente de pesos de hogar seria igual al número de estratos en la muestra. El Cuadro 12, muestra un ejemplo del cálculo de los pesos para cada estrato, lo cual es apropiado si no se toma en cuenta los cambios en el tamaño de las UPM después del censo.
Haga click aquí para ver el Cuadro 12 en MS Excel
3.1.1.2 Pesos de diseño del hogar cuando se selecciona una sub-muestra de otra muestra
Si se selecciona una sub-muestra de una muestra existente, entonces es necesario tener disponible la información sobre las probabilidades de selección de la UPM en la muestra maestra de la cual se selecciona la nueva muestra. En el Cuadro 10, se describe la información que idealmente debería estar disponible para todas las UPM en la muestra maestra. La expresión de la probabilidad de selección en la muestra maestra es la misma que se utilizó cuando se seleccionó una muestra directamente de un censo (marco muestral):
Phi = (nh )(Mhi )/(Mh )
Sin embargo, esta probabilidad se multiplica por la probabilidad de selección de la UPM en la sub-muestra para obtener la probabilidad de selección final de una UPM:
Phi' = Phi (nd'/nd ),
Donde nd' es el número de UPMs a seleccionar en el dominio d para la sub-muestra y nd es el número de UPMs en ese dominio en la muestra maestra. Nótese que los dominios, d, que se utiliza para la sub-muestra pueden estar compuestos de estratos múltiples, h, en la muestra maestra. En el Cuadro 10, se da un ejemplo en el cual ocho diferentes estratos, h, de la muestra maestra corresponden a un dominio en la sub-muestra. En el ejemplo, nd = 191, es el número de UPMs en la muestra maestra, y nd'= 30, es el número de UPMs seleccionadas para ese dominio en la sub-muestra. Tómese en cuenta que para la muestra maestra es necesario conocer las probabilidades iniciales Phi de selección de las UPM en la muestra maestra, y es necesario saber cuántas UPMs, nd , constituyen el dominio de la sub-muestra. Una vez que las UPM han sido seleccionadas para la sub-muestra se debe actualizar los listados del número de hogares en la UPM, que se denota Mhi'. Designamos npch, como el número de hogares que debe seleccionarse en cada UPM en el estrato h de la muestra maestra original. La probabilidad de selección de los hogares en la nueva muestra es entonces:
Phij'= (Phi )(nd'/nd )(npch /Mhi')
Estos cálculos se realizan en las columnas finales del Cuadro 10.
El peso de diseño del hogar será inversamente proporcional a esta probabilidad de selección de los hogares.
PESOVIVhi = (1/Phij')*constante
PESOVIVhi= (1/Phi)(nd /nd')(Mhi'/npch )*constante
Tómese en cuenta que en este caso se asigna un peso por separado a cada UPM y que todos los hogares dentro de una misma UPM tendrán el mismo peso. Los valores de Phi y nd provienen de la muestra maestra. Los valores para nd' y npch , que generan el número de UPM por dominio y el número de hogares por UPM en la muestra recientemente seleccionada , son especificados por el muestrista. Por último, la notación Mhi' representa los conteos actualizados en cuanto al número de hogares en las UPMs, seleccionadas para la muestra nueva.
Las diversas expresiones de PESOVIV presentadas anteriormente, incluyen la multiplicación por una constante, que intentan representar que el peso es inversamente proporcional a la probabilidad de selección. Para muchas RHS, aunque no para todas, esta constante se ha definido de tal manera que el total de los pesos de la muestra es igual al número total de hogares de la muestra con entrevista completa. Si M es el número total de viviendas en el marco muestral y m es el número total de hogares de la muestra con una entrevista completa, la constante se puede definir como m / M. En este caso, se calcula:
PESOVIVhi= (1/Phij )(m/M)
para todos los hogares de la muestra.
3.1.2 Pesos del diseño de la mujer seleccionada
Una vez que se define el peso del diseño del hogar, es fácil definir el peso de una mujer seleccionada. Recordando que la probabilidad de selección de una mujer en el hogar j de la UPM i es:
Phijk = Phij (1/whij ), donde whij es el número de mujeres elegibles en el hogar j.
El peso de una mujer en edad fértil (MEF) puede ser expresado como:
PESOMEFhij = (1/Phij )(whij )*constante
PESOMEFhij=PESOVIVhi*Whij*constante
Si se maneja que W es la suma de estos pesos para todas las mujeres con entrevista completa y w el número no ponderado de las mujeres con entrevista completa, se obtiene la expresión para el cálculo de los pesos normalizados como:
PESOMEFhij=PESOVIVhi*Whij*(w/W)
3.1.3 Pesos del diseño del hijo seleccionado
Una vez que se define el peso de la mujer es sencillo definir el peso del niño en aquellas encuestas donde se ha decidido seleccionar un niño al azar para investigar algunos temas de la salud en la niñez. Recuérdese que la probabilidad de selección de un nacimiento de la mujer k, en el hogar j, de la UPM i es:
Phijkl = Phijk (1/bhijk ), donde bhijk es el número de nacimientos en el período de referencia de la mujer k.
El peso del niño se puede expresar como:
PESOHIJOhijk=(1/Phijk )(bhijk )*constante
PESOHIJOhijk=PESOMEFhij* bhijk*constante
En general, para las RHS se ha fijado la constante en 1:
PESOHIJOhijk=PESOMEFhij* bhijk
Este peso, PESOHIJO, sólo debe utilizarse para el análisis de las variables que se recogieron sólo para los niños seleccionados al azar.
Para otras variables de los hijos que se basan en todos los nacimientos que tuvo la mujer, en el análisis se debe utilizar PESOMEF, porque la probabilidad de selección de cada nacimiento es igual a la probabilidad de selección de la madre.
3.2 Ajustes al peso para tasas de no respuesta
Generalmente para las encuestas RHS se ha calculado pesos de análisis como se describió arriba y no se ha hecho ajustes adicionales para las tasas de no respuesta. Esto es principalmente porque las tasas de respuesta han estado por arriba de 90 por ciento, en ambos casos, entrevistas en hogares y con mujeres seleccionadas. Este tipo de ajuste solo afectará los resultados en los casos cuando hay diferenciales sustanciales en las tasas de respuesta, según dominios del estudio o características de las unidades muestreadas. Si las tasas de respuesta se están incorporando en los pesos, el analista está asumiendo que las características de las mujeres (o los hogares) no entrevistadas, son semejantes a las características de las entrevistadas.
En general, si hay una característica, c, y se calculan tasas de respuesta según categorías de esta característica, las cuales se representan como Rc, se puede calcular el peso ajustado dividiendo el peso de análisis por Rc, para cada categoría de c:
PesoAjustec = (peso de diseño)c / Rc
La característica, c, puede ser una característica (por ejemplo, la edad) o puede ser una combinación de características múltiples (edad por estado civil). La característica, c, también puede referirse a los dominios del estudio descrito antes, como h.
3.3 Recalculando pesos con ajustes posteriores a la estratificación
El uso de ajustes a los pesos “posterior a la estratificación” también no ha sido muy común para las encuestas RHS. La idea básica consiste en comparar la distribución de la muestra ponderada (usando los pesos del diseño descritos antes) según alguna característica, con la distribución según la misma característica en otra fuente de información. La otra fuente puede ser un censo o una proyección de la población. Antes de hacer este tipo de ajuste el analista debe evaluar si realmente espera que la otra fuente de información es mejor que la encuesta que se ha hecho.
Si representamos el ajuste posterior a la estratificación para la categoría c de alguna característica como APEc , se puede calcular el ajuste como:
APEc = Proporción en c en la otra fuente / Proporción en c en la muestra ponderada.
Después, los pesos del diseño serán multiplicados por este ajuste:
PESOFINALc = PESOMEFc*APEc.
En el Cuadro 13, se presenta un ejemplo del cálculo de los pesos usando un ajuste posterior a la estratificación. En este ejemplo, se examina los porcentajes de mujeres clasificadas como urbana y rural dentro de los diferentes estratos del estudio. En este caso, se haría un ajuste independiente en cada estrato. Al comparar la muestra ponderada con el censo se observa que los estratos C, E y F tienen diferencias sustanciales en el porcentaje de urbana. Esto puede pasar fácilmente si el diseño de la muestra no fue estratificado según área de residencia, dentro de las regiones que definen los estratos6.
Haga click aquí para ver el Cuadro 13 en MS Excel
Si se decide en este ejemplo, que es importante tener la misma representación relativa que tiene el censo para áreas urbanas y rurales dentro de cada estrato, se puede utilizar ajustes posteriores a la estratificación para satisfacer este requerimiento. Al hacer este ajuste se está asumiendo que las áreas urbanas (y rurales) en la muestra son representativas de todas las áreas urbanas (y rurales) en la población del estrato. En este ejemplo, se ha preservado la representación relativa de los estratos, pero se ha ajustado la representación relativa de las áreas urbanas y rurales dentro de los estratos. Este ajuste probablemente no tendría mayor efecto en las estimaciones de indicadores al nivel nacional, pero se espera que afecte las estimaciones en los estratos que tienen mayores ajustes.
6 Generalmente la clasificación urbana/rural se hace al nivel de la UPM, tal que todos los hogares (y mujeres) en un conglomerado serán clasificados como urbanos o rurales. Si un estrato está representado por 30 UPM, el tamaño de muestra efectivo para la característica “área de residencia” es solamente 30, porque hay una correlación del 100 por ciento dentro de cada UPM. Se puede garantizar una representación de la muestra proporcional a la población si las UPM son sorteadas según el área de residencia antes de hacer la selección de las UPM. Esto se conoce como estratificación implícita. Es común usar el mismo procedimiento si las UPM son clasificadas según un indicador de “nivel de vida” en el marco muestral, pero si está sub-muestreando de una muestra maestra u otra muestra, tiene que trabajar con la estratificación utilizada en la construcción de esa muestra.
Referencias:
Kish, Leslie. 1965. Survey Sampling. New York: Wiley.
Le, Thanh and Vijay Verma, 1997. An Analysis of Sample Designs and Sampling Errors of the Demographic and Health Surveys. Demographic and Health Surveys Analytical Reports No. 3, Calverton, MD.
Los enlaces a organizaciones no federales se ofrecen solamente como un servicio a nuestros usuarios. Estos enlaces no constituyen un respaldo de los CDC ni del gobierno federal a estas organizaciones o a sus programas, ni debe inferirse respaldo alguno. Los CDC no se hacen responsables por el contenido de las páginas web de organizaciones individuales que pueda encontrar en estos enlaces.
Reciba actualizaciones por correo electrónico
Para recibir actualizaciones de esta página, ingrese su correo electrónico:
Contáctenos:
- Centros para el Control y la Prevención de Enfermedades
1600 Clifton Rd
Atlanta, GA 30333 - 800-CDC-INFO
(800-232-4636)
TTY: (888) 232-6348
24 Horas/Todos los días - cdcinfo@cdc.gov