El método Bootstrap para errores estándar e intervalos de confianza

  1. Educación
  2. Ciencia
  3. Biología
  4. El método Bootstrap para errores estándar e intervalos de confianza

Libro Relacionado

Por John Pezzullo

Puede calcular el error estándar (SE) y el intervalo de confianza (CI) de las estadísticas de muestreo más comunes (medias, proporciones, recuentos y tasas de eventos y coeficientes de regresión). Pero existe un SE y un CI (teóricamente, al menos) para cualquier número que se pueda extraer de los datos -medios, centiles, coeficientes de correlación y otras cantidades que pueden implicar cálculos complicados, como el área bajo una curva de concentración contra tiempo (AUC) o la probabilidad de supervivencia estimada de cinco años derivada de un análisis de supervivencia. Las fórmulas para la SE y la CI en torno a estos números pueden no estar disponibles o ser desesperadamente difíciles de evaluar. Además, las fórmulas que existen podrían aplicarse sólo a los números distribuidos normalmente, y es posible que no esté seguro de qué tipo de distribución siguen sus datos.

Considere un problema muy simple. Suponga que ha medido el coeficiente intelectual de 20 sujetos y ha obtenido los siguientes resultados: 61, 88, 89, 89, 89, 90, 92, 93, 94, 98, 98, 101, 102, 105, 108, 109, 113, 114, 115, 120 y 138. Estas cifras tienen una media de 100,85 y una mediana de 99,5. Debido a que usted es un buen científico, sabe que siempre que reporte algún número que haya calculado a partir de sus datos (como una media o mediana), también querrá indicar la precisión de ese valor en la forma de una SE y CI.

Para la media, y si se puede asumir que los valores del CI están aproximadamente distribuidos normalmente, las cosas son bastante simples. Se puede calcular el SE de la media como 3,54 y el IC del 95% alrededor de la media como 93,4 a 108,3.

Pero, ¿qué pasa con el SE y el CI para la mediana, para los que no existen fórmulas simples? ¿Y si no puedes estar seguro de que esos valores de CI provienen de una distribución normal? Entonces las fórmulas simples podrían no ser confiables.

Afortunadamente, existe un método muy general para estimar los valores de SEs y CIs para cualquier cosa que se pueda calcular a partir de los datos, y no requiere ninguna suposición sobre cómo se distribuyen los números. El SE de cualquier estadística de la muestra es la desviación estándar (DE) de la distribución del muestreo para esa estadística. Y los límites de confianza del 95% de una estadística de la muestra están bien aproximados por los 2,5 y 97,5 centímetros de la distribución muestral de esa estadística.

Así que si pudieras replicar todo tu experimento muchas miles de veces (usando una muestra diferente de sujetos cada vez), y cada vez calcular y guardar el valor de la cosa que te interesa (mediana, AUC, o lo que sea), esta colección de miles de valores sería una muy buena aproximación a la distribución de muestreo de la cantidad de interés. Entonces se podría estimar la SE simplemente como el SD de la distribución del muestreo y los límites de confianza de los centiles de la distribución.

Pero en realidad, llevar a cabo este escenario no es factible; probablemente no tenga el tiempo, la paciencia o el dinero para realizar el estudio completo miles de veces. Afortunadamente, usted no tiene que repetir el estudio miles de veces para obtener un estimado de la distribución del muestreo. Usted puede hacerlo reutilizando los datos de su estudio real una y otra vez! Esto puede sonar demasiado bueno para ser cierto, y los estadísticos estaban muy escépticos de este método cuando se propuso por primera vez. Lo llamaron bootstrapping, comparándolo con la imposible tarea de “levantarse con las botas puestas”.

Pero resulta que si sigues reutilizando los mismos datos de cierta manera, este método realmente funciona. A lo largo de los años, el procedimiento de bootstrap se ha convertido en una forma aceptada de obtener estimaciones fiables de SE e IC para casi cualquier cosa que se pueda calcular a partir de los datos; de hecho, a menudo se considera el “patrón oro” con respecto al cual se juzgan varias fórmulas de aproximación para SE e IC.

Para ver cómo funciona el método bootstrap, he aquí cómo lo usaría para estimar el SE y el IC del 95% de la media y la mediana de los 20 valores de CI mostrados anteriormente. Usted tiene que remuestrear sus 20 números, una y otra vez, de la siguiente manera:

  1. Escriba cada una de sus medidas en una hoja de papel separada y póngalas todas en una bolsa, en este ejemplo, escriba los 20 cocientes intelectuales medidos en hojas separadas.
  2. Mete la mano y saca un boleto, anota ese número y vuelve a ponerlo en la bolsa (esta última parte es muy importante).
  3. Repita el Paso 2 tantas veces como sea necesario para que coincida con el número de mediciones que tiene, devolviendo el deslizamiento a la bolsa cada vez, lo que se denomina remuestreo con reemplazo y produce un conjunto de datos remuestreados.
  4. Calcule la estadística de muestra deseada de los números remuestreados de los pasos 2 y 3, y registre ese número En este ejemplo, encontrará la media y la mediana de los 20 números remuestreados.
  5. Cada vez, se genera un nuevo conjunto de datos de la muestra a partir del cual se calculan y registran las estadísticas de la muestra deseada (en este caso, la media y la mediana del conjunto de datos de la nueva muestra). En cada conjunto de datos remuestreados, algunos de los valores originales pueden ocurrir más de una vez, y algunos pueden no estar presentes en absoluto. Casi todos los conjuntos de datos remuestreados serán diferentes de todos los demás. El método bootstrap se basa en el hecho de que estos valores medios y medios de los miles de conjuntos de datos remuestreados constituyen una buena estimación de la distribución del muestreo para la media y la mediana. Colectivamente, se asemejan al tipo de resultados que usted podría haber obtenido si hubiera repetido su estudio real una y otra vez.
  6. Calcule la desviación estándar de sus miles de valores de la estadística de la muestra, lo que le da una estimación “bootstrapped” de la SE de la estadística de la muestra. En este ejemplo, se calcula la DE de los miles de medias para obtener el SE de la media, y se calcula la DE de los miles de medianas para obtener el SE de la mediana.
  7. Obtenga los 2,5 y 97,5 centímetros de los miles de valores de la estadística de la muestra, ordenando los miles de valores de la estadística de la muestra en orden numérico, y luego cortando el 2,5 por ciento más bajo y el 2,5 por ciento más alto del conjunto de números ordenados. En este ejemplo, los 2,5 y 97,5 centímetros de los medios y medianas de los miles de conjuntos de datos remuestreados son los límites de confianza del 95% para la media y la mediana, respectivamente.

Obviamente nunca intentarías hacer este proceso de bootstrapping a mano, pero es bastante fácil hacerlo con software como el programa gratuito Statistics101. Puede introducir los resultados observados y decirle que genere, digamos, 100.000 conjuntos de datos remuestreados, calcule y guarde la media y la mediana de cada uno, y luego calcule el DS y los 2,5 y 97,5 centímetros de esos 100.000 medios y 100.000 medianas. Estos son algunos de los resultados de un análisis de bootstrap realizado sobre estos datos:

He aquí un resumen de las 100.000 remuestras:

  • El SD de los 100.000 significa = 3,46; este es el SE de la media (SEM).
  • La DE de las 100.000 medianas = 4,24; esto es el SE de la mediana.
  • Los centiles 2.5 y 97.5 de los 100,000 significan 94.0 y 107.6; estos son los límites de confianza del 95% para themean.
  • Los centiles 2.5 y 97.5 de las 100,000 medianas = 92.5 y 108.5; estos son los límites de confianza del 95% para la mediana.

Así que usted reportaría su media y mediana, junto con sus errores estándar y el intervalo de confianza del 95% de esta manera:

Notará que el SE es más grande (y el CI es más ancho) para la mediana que para la media. Esto es generalmente cierto para los datos distribuidos normalmente – la mediana tiene un 25% más de variabilidad que la media. Pero para los datos no distribuidos normalmente, la mediana es a menudo más precisa que la media.

No es necesario usar el bootstrap para algo tan simple como la SE o CI de una media porque hay fórmulas simples para eso. Pero el método bootstrap puede calcular fácilmente la SE o CI para una mediana, un coeficiente de correlación o un parámetro farmacocinético como las AUC o la vida media de eliminación de un fármaco, para el cual no existen fórmulas simples de SE o CI y para el cual los supuestos de normalidad podrían no aplicarse.

Bootstrapping es conceptualmente simple, pero no es infalible. El método implica ciertas suposiciones y tiene ciertas limitaciones. Por ejemplo, probablemente no va a ser muy útil si usted tiene sólo unos pocos valores observados. Para obtener más información sobre el uso del método bootstrap (y para que el software gratuito Statistics101 haga los cálculos de bootstrap muy fácilmente), consulte Estadísticas 101.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *