Estimacion

Publicado el 10 noviembre, 20215 min de lectura

I. ESTIMACIÓN DE PUNTOS D. L. Burkholder

BIBLIOGRAFÍA

II. INTERVALOS DE CONFIANZA Y REGIONES J. Pfanzagl

BIBLIOGRAFÍA

PUNTO ESTIMACIÓN

¿Cuántos peces hay en este lago? ¿Qué proporción de la población votante favorece al candidato A? ¿Cuánta pintura se necesita para esta habitación en particular? ¿Qué capacidad de combustible debería tener este avión para transportar pasajeros de forma segura entre Nueva York y París? ¿Cuántos artículos de este envío tienen la calidad deseada? ¿Cuál es la gravedad específica de este metal? Preguntas como estas representan problemas de estimación puntual. En la metodología estadística actual, estos problemas suelen plantearse de la siguiente forma: Un modelo matemático que describe un fenómeno particular está completamente especificado, excepto por alguna cantidad o cantidades desconocidas. Estas cantidades deben estimarse. El modelo de Galileo para cuerpos en caída libre y muchos modelos en teoría del aprendizaje, teoría de grupos pequeños y similares proporcionan ejemplos.

Las respuestas exactas a menudo son imposibles, difíciles, costosas o simplemente incómodas de obtener. Sin embargo, las respuestas aproximadas que probablemente se acerquen a la respuesta exacta pueden obtenerse con bastante facilidad. La teoría de la estimación puntual proporciona una guía para obtener tales respuestas; sobre todo, hace que sea preciso, o proporciona un marco suficiente para que uno pueda precisar, frases como “bastante probable que esté cerca” y otras como “este estimador es mejor que aquél”.

Como introducción a algunos de los problemas involucrados, considere estimar el número N de peces en un lago dado. Suponga que se sacan M peces del lago, se marcan y se devuelven ilesos al lago. Un poco más tarde, se observa que una muestra aleatoria de tamaño n de peces del lago contiene peces marcados con x . Un poco de pensamiento sugiere que probablemente la relación x / n está cerca de M / N o que el N desconocido y la relación Mn / x (definida solo si x> 0) no están demasiado separados. Por ejemplo, si M = 1,000, n = 1,000 yx = 20, podría ser razonable creer que Nestá cerca de 50.000. [Un ejemplo similar, relacionado con el movimiento de poblaciones de trabajadores, se analiza en ENCUESTAS DE MUESTRA.]

Claramente, este procedimiento puede llevarlo a uno por mal camino. Por ejemplo, es posible, aunque muy improbable, que se pueda obtener el mismo valor x = 20 y, por lo tanto, utilizando el procedimiento anterior, N se estima en 50.000, incluso si N es realmente tan pequeño como 1.980 o tan grande como 10.000.000. . Claramente, las consideraciones de probabilidad son básicas aquí. Si L (N) denota la probabilidad de obtener 20 peces marcados cuando hay N peces en el lago, se puede demostrar que 0 = L (1,979) <L (1,980) <… <L (49,999) = L (50,000) yL (50 000)> L (50 001)>…; es decir, N = 50.000 maximiza la probabilidad de obtener 20 peces marcados.

Diseño de experimentos . ¿Qué valores de M y n son más satisfactorios en el experimento anterior? Claramente, cuanto más grande es n , mejor es para fines de estimación, pero más caro es el experimento [ver DISEÑO EXPERIMENTAL]. Debe alcanzarse un equilibrio entre los objetivos contradictorios de minimizar el error y minimizar los gastos. Además, quizás otro diseño experimental podría dar mejores resultados. En el problema anterior, sea M = 1,000, pero en lugar de sacar un número fijo de peces del lago, saque los peces hasta obtener exactamente x peces marcados, donde x se fija de antemano. Entonces n, el tamaño de la muestra, es la observación de interés [verANÁLISIS SECUENCIAL]. ¿Qué diseño, de todos los diseños posibles, debería utilizarse? Este tipo de pregunta es básica para cualquier problema de estimación.

Prueba de hipótesis . Surgiría un problema completamente diferente si uno no quisiera realmente el valor de N por sí mismo, sino solo como un medio para decidir si el lago debe repoblarse con peces pequeños o no. Por ejemplo, podría ser deseable repoblar el lago si N es pequeño, digamos menos de 100.000, y no deseable de otro modo. En este caso, el problema de si el lago debe ser repoblado o no es equivalente a probar la hipótesis de que N es menor que 100.000 [ver PRUEBA DE HIPÓTESIS]. En general, un buen estimador no conduce necesariamente a una buena prueba.

Intervalos de confianza . El valor de un estimador, es decir, una estimación puntual, de N para una muestra particular es un número, con suerte uno cercano a N; el valor de un intervalo de confianza, es decir, una estimación de intervalo, de N para una muestra particular es un intervalo, con suerte uno que no solo sea pequeño sino que también contenga N [ver ESTIMACIÓN, artículo sobre INTERVALOS Y REGIONES DE CONFIANZA]. El problema de encontrar una buena estimación de intervalo está más relacionado con la prueba de hipótesis que con la estimación puntual.

Tenga en cuenta que ciertos problemas son claramente problemas de estimación puntual más que problemas de estimación de intervalos: al decidir cuál debería ser la capacidad de combustible de un avión, los diseñadores deben establecer un número en particular.

Pasos para resolver un problema de estimación

El primer paso en la solución de un problema de estimación, como se sugirió anteriormente, es diseñar un experimento (o método para tomar observaciones) de manera que el resultado del experimento, llamémoslo x, se vea afectado por la cantidad desconocida que se va a estimar, que en la discusión anterior era N. Típicamente, x está relacionado con N probabilísticamente más que determinísticamente. Esta relación de probabilidad debe especificarse. Por ejemplo, la probabilidad de obtener x peces marcados en una muestra de tamaño n viene dada por la distribución hipergeométrica,

siempre que la muestra se haya extraído al azar sin reemplazo [ver DISTRIBUCIONES, ESTADÍSTICAS, artículo sobre DISTRIBUCIONES DISCRETAS ESPECIALES]. (El denominador es el número de combinaciones de N cosas tomadas n a la vez, y así sucesivamente.) Si la suposición de aleatoriedad no se satisface del todo, entonces la relación de probabilidad especificada será sólo aproximadamente verdadera. Estos problemas de especificación y sus implicaciones se analizarán más adelante. Luego, después de que se ha diseñado el experimento y se ha especificado el modelo de probabilidad, se debe elegir una función f definida para cada x posible tal que si se observa x , entonces f (x), el valor de la función f en x,se utilizará como una estimación numérica de N. Esta función f se denomina estimador de N. El problema de la elección de f se discutirá más adelante. Por último, después de que se haya establecido provisionalmente un estimador f particular , es posible que desee calcular características de rendimiento adicionales de f, dando más indicaciones de qué tan bien ffuncionará en promedio. Si los resultados de estos cálculos muestran que f no será satisfactorio, entonces se podrían contemplar cambios en el diseño del experimento, por ejemplo, un aumento en el tamaño de la muestra. Claramente, existe una gran interacción entre todos los pasos en la solución de un problema de estimación que se describe aquí.

Nota terminológica . Algunos autores distinguen terminológicamente entre el estimador, la función f, y su valor numérico para una muestra particular, la estimación. Otra distinción es la que existe entre una variable aleatoria y un valor genérico de la variable aleatoria. (Algunos autores usan X para el primero y x para el último). Estas distinciones son a veces importantes, pero generalmente no se hacen en este artículo, aunque aparecen comentarios especiales en algunos lugares. De lo contrario, debería quedar claro a partir del contexto si se hace referencia a una función o su valor, o si se hace referencia a una variable aleatoria o su valor.

Elección del estimador

Como medio para ilustrar las diversas consideraciones que influyen en la elección de un estimador, se discutirán algunos ejemplos típicos.

Ejemplo 1. Sea x el número de éxitos en n ensayos independientes, siendo p la probabilidad de éxito en un ensayo individual . (Por ejemplo, x podría ser el número de encuestados de n cuestionados en una encuesta política que dicen ser demócratas, y p es la probabilidad de que un individuo elegido al azar en la población diga que es demócrata). Aquí p es desconocido y puede ser cualquier número entre 0 y 1 inclusive. Un estimador f de p idealmente debería ser tal que f (x) esté cerca de p sin importar cuál sea la p desconocidaes y no importa cuál sea la observación x . Es decir, el error f (x) – p cometido al usar f (x) como una aproximación ap siempre debe ser pequeño. Esto es demasiado de esperar ya que x puede, por casualidad, ser bastante engañoso con respecto a p. Sin embargo, no es demasiado esperar que el error sea pequeño en un sentido medio. Por ejemplo, el error cuadrático medio,

debe ser pequeño sin importar cuál sea la p desconocida , o el error absoluto medio E r f – p debe ser pequeño sin importar cuál sea p , o similar. Por el momento, los estimadores se compararán únicamente sobre la base de sus errores cuadráticos medios. Más adelante se mencionará un enfoque más general, cuyas ideas subyacentes están bien ilustradas en este caso especial. La primera pregunta que surge es, ¿se puede encontrar un estimador f tal que, para cada psatisfaciendo 0 ≤ p ≤ 1, el error cuadrático medio de f en p es menor que (o al menos no mayor que) el error cuadrático medio en p de cualquier otro estimador? Obviamente, tal estimador sería mejor en este sentido de error cuadrático medio. Desafortunadamente, y esto es lo que hace que el problema de elegir un estimador no sea un problema trivial, no existe el mejor estimador. Para ver esto, considere las estimaciones f 1 y f 2 definidas por f 1 (x) = x / n y f 2 (x) = ½ No es difícil demostrar que E p (f 1 – p) 2 = p ( 1 – p) / n, y claramente, E p (f 2 – p)2 = (½ – p) 2 . Si existiera un mejor estimador f, tendría que satisfacer E p (f – p) 2 ≤ E p (f 2 – p) 2 . Pero la última cantidad es cero para p = ½, lo que implica que f = f 2 . Sin embargo, f 2 no es mejor ya que E 2 (f 1 – p) 2 es menor que E p (f 2 – p) 2 para p cerca de 0 o 1.

Aunque no existe el mejor estimador, existen muchos buenos estimadores. Por ejemplo, hay muchos estimadores f que satisfacen E p (f – p) 2 ≤ l / (4n) para 0≤ p ≤ 1. El estimador f l , definido anteriormente, es un estimador de este tipo. El estimador f 3 definido por con error cuadrático medio es otro. Si nes grande, el error cuadrático medio de cualquiera de estos estimadores es pequeño para cada valor posible de p. En este problema, como es típico, cualquiera de los muchos buenos estimadores disponibles sería sin duda razonable de usar en la práctica. Solo agregando más supuestos, por ejemplo, supuestos que dan alguna información sobre la p desconocida, se puede reducir la clase de estimadores razonables. Tenga en cuenta que los estimadores todavía se comparan sobre la base de sus errores cuadráticos medios únicamente.

El estimador f 3 es minimax en el sentido de que f 3 minimiza (cap, 81a) E p (f – p) 2 con respecto a f. El enfoque minimax centra la atención en lo peor que puede suceder con f y elige f en consecuencia [ver TEORÍA DE LA DECISIÓN]. Tenga en cuenta que el estimador f 1 (f 1 (x) = x / n) tiene un error cuadrático medio ligeramente mayor que el de f 3 para valores de p cercanos a ½ para valores de p cercanos a 0 o 1, la ventaja radica totalmente en f 1 . Otras propiedades de estos estimadores se discutirán más adelante.

Ejemplo 2. Suponga que x 1 , x 2 ,…, x n son observaciones en n variables aleatorias independientes, cada una con la distribución de Poisson con el parámetro λ, donde λ es desconocido y puede ser cualquier número no negativo [ver DISTRIBUCIONES, ESTADÍSTICAS, artículo sobre DISTRIBUCIONES ESPECIALES DISCRETAS]. Por ejemplo, x k podría ser el número de ocurrencias durante el k-ésimo intervalo de tiempo de longitud unitaria de cualquier fenómeno que ocurra “al azar” en el tiempo, posiblemente llamadas telefónicas que ingresan a una central, clientes que ingresan a una tienda, etc. [verCOLAS]. Sabiendo que λ es tanto la media como la varianza de la distribución de Poisson, podría ser razonable suponer que tanto la media de la muestra,

y la varianza de la muestra,

(aquí, se debe suponer que n> 1), proporcionan buenos estimadores de la desconocida λ. No es difícil demostrar que m es mejor que s 2 , es decir, E A (m-λ) 2 ≤ Ex (s 2 λ) 2 para todo λ ≥ 0, con desigualdad estricta para algunos λ ≥ 0.

Un estimador es inadmisible (con respecto a un criterio dado como el error cuadrático medio) si existe uno mejor; en consecuencia, el estimador s 2 es aquí inadmisible. Un estimador es admisible si no es inadmisible. Aunque no es obvio, el estimador m es admisible. De hecho, la clase de estimaciones admisibles es muy grande aquí, como suele ser el caso. En el ejemplo 1, los tres estimadores discutidos, f 1 , f 2 y f 3 , son admisibles.

Ejemplo 3. Sean x 1 , x 2 ,…, x n observaciones sobre n variables aleatorias independientes, cada una de las cuales tiene la distribución normal con media μ. y varianza σ 2 , donde se desconocen tanto μ como σ 2 ; μ puede ser cualquier número real y σ 2 puede ser cualquier número positivo. Uno podría estar interesado en estimar solo μ solo σ 2 , el par (μ, σ 2 ), o quizás alguna combinación como μ / σ

Ejemplo 4. Sea x 1 x 2 ,…, x n observaciones sobre n variables aleatorias independientes, cada una de las cuales tiene la distribución uniforme sobre el conjunto de enteros {1,2,…, N}, donde N puede ser cualquier entero positivo. Por ejemplo, en un estado donde las placas de los automóviles están numeradas de 1 a N, cada x i sería el número de una placa elegida al azar. ¿Qué es un buen estimador de N?

Estadísticas suficientes . Una forma simple y eficaz de reducir la clase de estimadores que se deben considerar al elegir un buen estimador es identificar un estadístico suficiente para el problema y considerar solo aquellos estimadores que dependen del estadístico suficiente [ver SUFICIENCIA]. En términos generales, si τ es un estadístico suficiente, conocer t (x) es tan útil como conocer x. El siguiente resultado es importante. Si τ es un estadístico suficiente y f es un estimador con error cuadrático medio finito y f no depende de t (es decir, f no es esencialmente expresable como f = h (t) para alguna función h), entonces hay otro estimador F,eso depende de τ y tal que f 0 es mejor que f (en el sentido técnico definido anteriormente). Un f 0 que funciona es la expectativa condicional de f en relación con t.

En el ejemplo 2, m es un estadístico suficiente, por lo que solo es necesario considerar los estimadores que dependen de m . En particular, s 2 , que no depende de m en el sentido definido anteriormente, no necesita ser considerado. En el ejemplo 3, el par ordenado (m, s 2 ), donde my s 2 se definen como en el ejemplo 2, es una estadística suficiente. En el ejemplo 4, el 2m estimador podría parecer a primera a ser un estimador plausible de N. Sin embargo, no depende de la estadística suficiente u definido por u (x) = el más grande de la x, K .Existen estimadores mucho mejores que 2m. Por ejemplo, el bastante complicado

es un estimador de este tipo. (Tenga en cuenta que f 4 es aproximadamente igual a (n + l) u / n.)

Criterios adicionales para la elección del estimador. Hasta ahora, los estimadores se han comparado sobre la base de sus errores cuadráticos medios únicamente. Dado que no existe el mejor estimador, por lo general no se puede obtener una solución única al problema de elegir un estimador con este enfoque. En realidad, esto no es demasiado lamentable, ya que normalmente existen muchos buenos estimadores. Incluso exigir que un estimador sea minimax, no necesariamente siempre una demanda razonable, no siempre conduce a un estimador único. En el ejemplo 2, todo estimador de λ tiene un error cuadrático medio ilimitado; y en el ejemplo 3, todo estimador de μ tiene un error cuadrático medio ilimitado. Por lo tanto, en estos dos ejemplos, todos los estimadores de X e (i, respectivamente, son minimax, pero el concepto pierde todo interés. En el ejemplo 1, exigir minimaxidad conduce al estimador minimax único f3 . Un estimador minimax único es claramente admisible.

La fuerte tendencia intelectual y psicológica de los seres humanos a estar satisfechos solo con respuestas únicas ha llevado a menudo a exigir más a los estimadores, además de que sus errores cuadráticos medios sean pequeños.

Imparcialidad. Un estimador es insesgado si el valor medio del estimador es igual a la cantidad que se está estimando. En el ejemplo 1, f 1 es insesgado ya que E p f 1 = p, 0 ≤ p ≤ 1. Tanto my s 2 son estimadores insesgados de λ en el ejemplo 2. En el ejemplo 3, m es un estimador insesgado de N y s 2 es un estimador insesgado de σ. En el ejemplo 4, tanto 2m como f 1 son estimadores insesgados de N. La búsqueda del mejor estimador insesgado a menudo conduce a una respuesta única. En el ejemplo 2, un estimador f sería mejor insesgado (o mínima varianza insesgada) si es insesgado y satisface

para todo λ ≤ 0 y todo estimador insesgado f *. El estimador m es un estimador de este tipo para este problema y es el único estimador de este tipo. El estimador f 1 es el mejor estimador insesgado de p en el ejemplo 1; el estimador m es el mejor estimador insesgado de p en el ejemplo 3; y el estimador f 4 es el mejor estimador insesgado de N en el ejemplo 4. La eficiencia relativa de dos estimadores insesgados es la razón de sus varianzas recíprocas. La eficiencia relativa bien puede depender del valor del parámetro.

Los estimadores no sesgados no existen en algunos problemas importantes. Usando el primer diseño se menciona en el problema de estimar el número de peces en un lago, N, sin estimador insesgado de N existe. Aunque en el ejemplo 3, s 2 es el mejor estimador insesgado de σ 2 , otro estimador de σ, (n – I) s 2 / (n + 1), a pesar de estar sesgado, es en realidad mejor que s 2 en el sentido de la media. error al cuadrado. Esto muestra que imponer demandas adicionales a los estimadores puede entrar en conflicto con la demanda de error cuadrático medio pequeño. Por supuesto, la importancia relativa de las diversas propiedades que puede tener un estimador sin duda será juzgada de manera ligeramente diferente por diferentes individuos razonables.

Invarianza. A veces se pueden invocar nociones de invariancia para que exista el mejor estimador invariante. Por ejemplo, si x = (x 1 ,…, x n ), b es un número real y y = (x 1 + b,…, x n + b), el estimador m es invariante en el sentido de que satisface m (y) = m (x) + b. Resulta que entre todos los estimadores de μen el ejemplo 3 con esta propiedad de la invariancia de escala, el estimador m es mejor en el sentido habitual del error cuadrático medio. El argumento a favor de la invariancia puede expresarse de manera bastante vaga como sigue. Las irregularidades en los datos (por ejemplo, si el tiempo se mide desde las 12 del mediodía, hora de Nueva York, o desde las 12 del mediodía, hora de Greenwich) no deberían marcar una diferencia fundamental en los resultados obtenidos del análisis de los datos.

Un tipo diferente de problema de invariancia puede resultar problemático en algunas circunstancias. Suponga en el ejemplo 1 que el interés no se centra en p sino en alguna función de p, digamos 1 / p. Si f es un estimador satisfactorio de p, no es necesario que 1 / f sea un estimador satisfactorio de 1 / p, ya que propiedades como el insesgado, las funciones de error cuadrático medio, etc., pueden cambiar drásticamente bajo transformaciones no lineales. Afortunadamente, en muchos problemas el parámetro en sí, o una única función del mismo, es de interés central, por lo que este tipo de no invariancia no es grave.

Problemas de especificación . Hasta ahora, los estimadores se han elegido en relación con modelos de probabilidad dados. Si un estimador parece satisfactorio para un modelo de probabilidad dado, puede ser relevante preguntar si este estimador también es bueno para modelos de probabilidad estrechamente relacionados con el dado. Por ejemplo, es demasiado esperar que un modelo que postule distribuciones normales describa exactamente la situación práctica de interés. Afortunadamente, en muchos problemas comunes, cambios leves en el modelo de probabilidad no afectarán materialmente la bondad de un estimador razonable para el modelo original [ver ERRORES, artículo sobre EFECTOS DE ERRORES EN SUPUESTOS ESTADÍSTICOS]. Por ejemplo, el estimador mde μ en el ejemplo 3 es en realidad un estimador bastante razonable de la media poblacional μ, en una gran variedad de casos, particularmente si la varianza poblacional σ 2 es finita y el tamaño de muestra n no es demasiado pequeño, como puede verse en la fórmula para su error cuadrático medio, σ 2 / n. Sin embargo, surgen circunstancias en las que es posible que sea necesario considerar estimadores alternativos, por ejemplo, la mediana de la muestra, que no se ve tan afectada por cambios leves en las colas de la distribución. [Un proceso para llegar a otros estimadores similares, llamado Winsorización, se discute en ESTADÍSTICAS NO PARAMÉTRICAS, artículo sobre ESTADÍSTICAS DE PEDIDOS; el concepto estrechamente relacionado de recorte se discute enERRORES, artículo sobre los EFECTOS DE LOS ERRORES EN SUPUESTOS ESTADÍSTICOS .]

Más de un parámetro . La mayor parte del material de este artículo trata sobre la estimación de un solo parámetro. El caso multiparamétrico es, por supuesto, también importante y existen análogos multiparamétricos de todos los temas de este artículo. Se tratan en las referencias, por ejemplo, de Kendall y Stuart (1946), Cramér (1945) y Wilks (1962).

Métodos de estimación constructiva

Estimadores de máxima verosimilitud . En el ejemplo 1, el estimador f 1 es el estimador de máxima verosimilitud de p: Para cada x, f 1 (x ~) es el valor de p maximizando (n) p * (lp) “≤, la probabilidad de obtener x. En ejemplo 2, m es el estimador de máxima verosimilitud de λ. En el ejemplo 3, (m, [n – I] s 2 / w) es el estimador de máxima verosimilitud de (μ, σ 2 ). En el ejemplo 4, ues el estimador de máxima verosimilitud de N. En el problema de estimar el número de peces en un lago, N, utilizando el primer diseño, no existe un estimador de máxima verosimilitud ya que no se puede definir tal estimación para x = 0, aunque para x> 0 no ocurre ningún problema. En algunos ejemplos, no existe un estimador de máxima verosimilitud único.

Los estimadores de máxima verosimilitud suelen ser fáciles de obtener. Un estimador de máxima verosimilitud no necesariamente tiene un pequeño error cuadrático medio ni es siempre admisible. Por lo tanto, el principio de máxima verosimilitud a veces puede entrar en conflicto con el principio de error cuadrático medio pequeño. No obstante, los estimadores de máxima verosimilitud suelen ser bastante buenos y vale la pena examinarlos. Si el tamaño de la muestra es grande, tienden a comportarse casi tan bien como el estimador m de μ, en el ejemplo 3.

La estimación de máxima verosimilitud suele ser constructiva, es decir, el método proporciona una maquinaria que a menudo proporciona una función de estimación única. Existen otros métodos constructivos, tres de los cuales se describen aquí: el método de momentos, mínimos cuadrados y estimación de Bayes. Uno u otro de estos métodos constructivos pueden proporcionar un estimador más simple o mejor comportado en cualquier caso particular.

El método de los momentos . El enfoque del método de momentos (o de valores esperados) es establecer uno o más momentos muestrales iguales a los momentos poblacionales correspondientes y “resolver”, si es posible, para los parámetros, obteniendo así estimadores de estos parámetros. El método es particularmente apropiado para un muestreo aleatorio simple. En el ejemplo 1, si se considera que la muestra está formada por n observaciones, siendo kth un 1 (éxito) o 0 (fracaso), la media de la muestra es x / ny la media de la población es p, por lo que el método de momentos resultante estimador es x / n.En el ejemplo 4, el método de los momentos, como se aplicaría normalmente, conduce a un estimador deficiente. No obstante, el método puede resultar muy útil, especialmente en casos más complejos con varios parámetros.

Mínimos cuadrados . El método de mínimos cuadrados es especialmente útil cuando las observaciones no se obtienen mediante muestreo aleatorio simple. Se considera la suma formal de cuadrados X)) t (≤ – EX k ) 2 , donde x k es una observación sobre la variable aleatoria Xk con expectativa EX k (dependiendo de los parámetros a estimar). Luego, se intenta minimizar la suma de cuadrados sobre los posibles valores de los parámetros. Si existe un mínimo único, los valores de minimización de los parámetros son los valores de sus estimadores de mínimos cuadrados.

El método es particularmente apropiado cuando las Xk son independientes y están distribuidas de manera idéntica, excepto para los cambios de traslación a los que se les dan funciones de los parámetros. Si todos los X k tienen la misma expectativa, como en los ejemplos 1-4, el estimador de mínimos cuadrados de esa expectativa es la media muestral. La estimación por mínimos cuadrados, sin modificación o extensión, no proporciona estimadores de parámetros (como σ en el ejemplo 3) que no entran en las expectativas de las observaciones. [Un tratamiento más completo de este tema aparece en LINEAR HYPOTHESES, artículo sobre REGRESIÓN.]

Estimación de Bayes . Considere el ejemplo 1 nuevamente, esta vez suponiendo que la p desconocida es en sí misma el resultado de algún experimento y que se conoce la distribución de probabilidad subyacente a este experimento. Por ejemplo, x podría ser el número de caras obtenidas en n lanzamientos de una moneda en particular, la probabilidad de que una cara para la moneda en particular sea p donde se desconoce p , pero donde la moneda se ha elegido al azar de una población de monedas con un distribución conocida de p valores. Entonces sería razonable elegir un estimador f que minimice el valor medio del error al cuadrado [f (x) – p] 2donde el promedio se realiza con respecto a la distribución conjunta conocida de x y p. Este estimador minimizador se denomina estimador de Bayes; por supuesto, depende de la distribución asignada ap [ver inferencia bayesiana ]. Una distribución puede asignarse ap simplemente como un dispositivo técnico para obtener un estimador y completamente al margen de la cuestión de si p es realmente el resultado de un experimento. Este es el espíritu con el que a menudo se introducen los estimadores de Bayes, como una forma de obtener un estimador que puede tener o no buenas propiedades. Por otro lado, se puede asignar una distribución apde tal forma que se dé mayor peso a aquellos valores de p que parezcan más probables de obtener. Por supuesto, diferentes individuos pueden asignar diferentes distribuciones, ya que esto es una cuestión de criterio. Sin embargo, este enfoque proporciona un método posible para utilizar cualquier información obtenida previamente sobre p que pueda estar disponible. Sería bastante raro que la única información disponible sobre p antes del experimento sea que 0 < p <1.

Ejemplos de estimadores de Bayes incluyen el estimador f 3 del ejemplo 1, obtenido al asignar una determinada distribución beta ap, y el estimador f 5 de p, definido por f 5 (x) = (x + 1) / (n + 2) , obtenido al asignar ap la distribución uniforme en el intervalo entre 0 y 1. [ Ver DISTRIBUCIONES ESTADÍSTICAS, artículo sobre DISTRIBUCIONES CONTINUAS ESPECIALES, para discusiones sobre estas distribuciones específicas]. Incluso f 2 es un estimador de Bayes. Sin embargo, f 1, no es un estimador de Bayes sino más bien el límite de una secuencia de estimadores de Bayes.

Restringir la atención a los estimadores que son Bayes o los límites (en cierto sentido) de las secuencias de los estimadores de Bayes generalmente asegura que no se pasa por alto ningún estimador admisible. Los métodos de Bayes con frecuencia resultan útiles como dispositivos técnicos para resolver estimadores minimax y en muchas otras situaciones.

Teoría de la estimación asintótica

Debido a que a menudo es difícil comparar estimadores para tamaños de muestra pequeños, gran parte de la investigación sobre la estimación puntual se realiza en términos de tamaños de muestra grandes, trabajando con límites a medida que el tamaño de la muestra llega al infinito. En este contexto, no se considera un estimador en sí mismo, sino una secuencia de estimadores, cada miembro de los cuales corresponde a un solo tamaño de muestra. Por ejemplo, considere la secuencia de medias muestrales m 1 m 2 ,…, donde Si una secuencia de estimadores tiene propiedades deseables en un sentido muestral grande limitante, a menudo se presume que miembros particulares de la secuencia participarán hasta cierto punto de estos valores deseables. propiedades.

Consistencia . Una condición asintótica que a menudo se considera esencial es la de consistencia, en el sentido de que la secuencia de estimadores se acerca al valor real del parámetro, con alta probabilidad, para tamaños de muestra grandes. Más precisamente, si {t n } es la secuencia de estimadores, y si 6 es el parámetro que se estima, se dice que la secuencia {t n } estima 6 consistentemente si, para cada intervalo / que contiene 6 en su interior, la probabilidad de que el el valor de t n pertenece a I se acerca a 1 cuando n se acerca al infinito, sin importar cuál sea el valor de 0es. (También hay un concepto no asintótico de consistencia, estrechamente relacionado con lo anterior. Ambas ideas, y sus aplicaciones, se originaron con RA Fisher).

Comparación de estimadores . Para simplificar, considere ahora variables aleatorias independientes distribuidas de manera idéntica con una distribución común que depende de un solo parámetro, θ. Sea ϕ e la función de densidad (o función de frecuencia) correspondiente a esa distribución común para el valor del parámetro 0. Tradicionalmente, ya menudo tácitamente, se imponen un gran número de condiciones de regularidad sobre <$ »; por ejemplo, distribuciones como las del ejemplo 4 no se incluyen aquí en la teoría estándar. En este breve resumen, no se discutirán las condiciones de regularidad. Casi sin modificaciones, la discusión se aplica tanto a cantidades aleatorias cualitativas como numéricas.

Dos secuencias de estimadores, que compiten como estimadores de θ , a menudo se comparan considerando las razones de sus varianzas asintóticas, es decir, las varianzas de las distribuciones límite cuando n se acerca al infinito. En particular, una o ambas secuencias pueden tener la varianza asintótica más baja posible. Al discutir estos asuntos, los siguientes constructos, inventados y nombrados por RA Fisher, son importantes.

Puntuación, información de Fisher y eficiencia. La puntuación de la observación única x k es una función de x, k y θ definidos por

y proporciona el cambio relativo en ϕ (para cada valor posible de x k ) cuando 0 cambia ligeramente. Dos hechos básicos sobre la puntuación son E θ s θ = 0, var θ s θ = -E θ (∂s θ / ∂θ). La cantidad, -E (∂s θ / ∂θ), a menudo se denomina información de Fisher contenida en una sola observación y se denota por I (θ).

Para toda la muestra, x = {x 1 , x s , ċ, x n }, la puntuación de la muestra es solo la suma de las puntuaciones de las observaciones individuales,

La información de Fisher I n (θ) contenida en toda la muestra se define como antes, con s θn reemplazando a s θ ; es solo la suma de los valores de información de Fisher para las n observaciones individuales. Bajo los supuestos, cada observación aporta la misma cantidad a la información total, es decir, l (θ) es el mismo para cada observación, de modo que I »(θ) = n I (θ).

Excepto por el signo, I n (θ) es la curvatura de la función de verosimilitud cerca del valor real de 0. En términos generales, una curvatura pronunciada de la función de verosimilitud corresponde a una estimación más nítida o una varianza de estimación más baja. La desigualdad de información dice que, para secuencias de estimadores {t n } tales que √n (t n – θ) converge en distribución a una distribución con media cero y varianza σ 2 ,

Darmois, Dugué, Cramér, Rao y otros han explorado variantes no asintóticas de esta desigualdad. La variante básica, para un estimador insesgado t n , basado en una muestra de tamaño n, es

(Esto generalmente se llama la desigualdad de Cramér-Rao.) Bajo las condiciones de regularidad tácita, esta desigualdad se convierte en una igualdad justo cuando

Esto puede suceder solo si el lado derecho no es una función de 0, y esto a su vez ocurre (bajo regularidad) cuando y solo cuando las distribuciones dadas por <t> e forman una familia exponencial [ver DISTRIBUCIONES, ESTADÍSTICAS, artículo sobre ESPECIALES CONTINUAS DISTRIBUCIONES].

El estimador de máxima verosimilitud de θ basado en x = (X 1 ,…, x n ), digamos 0 ” n , es (bajo regularidad) la solución de la ecuación de verosimilitud se a (x) – 0. En estas circunstancias, y son ambos asintóticamente normales con media cero y varianza unidad. Además, la diferencia entre estas dos cantidades converge a cero en probabilidad a medida que n aumenta.

Por tanto, el estimador de máxima verosimilitud es asintóticamente eficiente, en el sentido de que su varianza asintótica es lo más baja posible, ya que satisface la desigualdad de información asintótica. En general, existen otros (secuencias de) estimadores que también satisfacen la desigualdad de información; estos se denominan mejores estimadores regulares asintóticamente normales (RBAN). Los estimadores RBAN son aquellos que son indistinguibles del estimador de máxima verosimilitud en términos de distribución asintótica, como se interpreta tradicionalmente. Oβ ^ en algún estimador RBAN distinto del estimador de máxima verosimilitud es más fácil de calcular y trabajar.

La palabra “regular”, utilizada anteriormente, se refiere en parte a las condiciones de regularidad de los propios estimadores, considerados como funciones de la muestra. Sin esa restricción, se pueden construir estimadores supereficientes algo extraños .

El concepto de tratamiento asintótico se ha extendido recientemente en otras direcciones que las resumidas anteriormente, en particular por el trabajo de RR Bahadur y CR Rao.

Un enfoque más general de la estimación

Hasta ahora, la discusión se ha basado principalmente en comparar estimadores a través de sus errores cuadráticos medios. Por supuesto, se podría haber utilizado el error absoluto medio. De manera más general, suponga que W (θ, d) es la pérdida incurrida cuando se usa la estimación numérica d como si fuera el valor g (θ). Aquí 0 es el parámetro desconocido de la distribución de probabilidad subyacente al resultado x de un experimento, y <? (Θ) debe estimarse. Si f es un estimador, x se ha observado, y f (x) se utiliza como si fuera el valor de 0 (θ), entonces la pérdida incurrida es W [0, f (x)]. La pérdida media, E »W (θ, f), denotada por r (0, f), una función tanto de 0 como de f, es de interés. La funciónr se llama función de riesgo. Ahora bien, términos como mejor, admisible, minimax, Bayes, etc. podrían definirse utilizando la función de riesgo, r, en lugar del error cuadrático medio. Por ejemplo, f es mejor que f * (en relación con la pérdida W) si r (0, f) * S r (0, f) para todo 0 con desigualdad estricta para algún 0 [ver TEORÍA DE LA DECISIÓN].

En la discusión anterior, W se tomó como W (θ, d) = [d – g (θ)] 2 y, por lo tanto, r era el error cuadrático medio.

En el contexto multiparamétrico más general mencionado anteriormente, θ es un vector de más de un parámetro ordinario (escalar), por lo que puede ser g (θ), la cantidad a estimar. Por ejemplo, en el ejemplo 3, θ = (μ, σ 2 ), g (θ) podría ser θ y W ( θ, d ) podría ser (d 1 μ) 2 + (d 2 – σ 2 ) 2 , donde d = (d 1 , d 2 ) es un par ordenado de números reales. O considere el siguiente ejemplo en el que se estiman simultáneamente un número infinito de cantidades.

Ejemplo 5. Sean x 1 , x 2 ,…, x n observaciones sobre n variables aleatorias independientes, cada una con la misma función de distribución F, donde F puede ser cualquier función de distribución en la línea real. El problema es estimar toda la función F, es decir, estimar F (a) para cada número real a. Aquí θ = F, g (θ) = F, d puede ser cualquier función de distribución, y W ( θ, d ) puede estar dado, por ejemplo, por sup ǀd (a) – F (a) ǀ, donde el supremo ( mínimo límite superior) se toma sobre todo real a. Aquí existe un estimador bastante satisfactorio, la función de distribución de la muestra. Para n grande , su función de riesgo es cercana a 0. Para x = (xi , x 2 , …, x n ), el valor de la función de distribución muestral es la distribución que coloca la probabilidad 1 / n en cada uno de x 1 , x 2 , …, x n si estos valores son distintos, con el diferencial obvio ponderando lo contrario.

Una dificultad con el enfoque más general para la estimación que se describe aquí es que la función de pérdida W a menudo es difícil de definir de manera realista, es decir, de tal manera que W (θ, d) se aproxima a la pérdida real incurrida cuando se usa d como si fueron el valor de g ( θ ). Afortunadamente, un estimador que es bueno en relación con una función de pérdida, digamos error al cuadrado, a menudo es bueno en relación con una amplia clase de funciones de pérdida.

Quizás el concepto clave en la teoría de la estimación sea mejor. Una vez que se ha decidido lo que debería significar “este estimador es mejor que aquél”, una gran parte de la teoría sigue de forma natural. Son posibles muchas definiciones de mejor . Varios otros además del mencionado aquí aparecen en la literatura, pero ninguno ha sido tan profundamente investigado.

Historia

La teoría de la estimación puntual tiene una larga historia y una gran cantidad de literatura. Los Bernoullis, Moivre, Bayes, Laplace y Gauss aportaron muchas ideas y técnicas importantes al tema durante el siglo XVIII y principios del XIX. Karl Pearson destacó el método de los momentos y la importancia de calcular las varianzas aproximadas de los estimadores. Durante los primeros años del siglo XX, nadie abordó el tema con más vigor que RA Fisher. Sus contribuciones incluyen el desarrollo del principio de máxima verosimilitud y la introducción de la importante noción de suficiencia. El estudio sistemático de Neyman sobre la estimación de intervalos apareció en 1937. Aunque Neyman y ES Pearson habían mencionado la posibilidad de un enfoque de función de pérdida para los problemas estadísticos en 1933,[ver las biografías de BAYES; FAMILIA BERNOULLI; FlSHER, RA; GAUSS; LAPLACE; MOIVRE; PEARSON; WALD].

Sin duda, seguirán surgiendo problemas de estimación nuevos y no estándar que requieran técnicas de solución nuevas y no estándar. Recientemente se han propuesto soluciones notables a dos de estos problemas bajo el nombre general de aproximación estocástica [ver ANÁLISIS SECUENCIAL].

Idealmente, las construcciones científicas deberían poseer no solo un gran poder explicativo, sino también simplicidad. La búsqueda de ambos, sin duda, fomentará cada vez más la construcción de modelos matemáticos en las ciencias sociales. Además, es muy probable que estos modelos tengan que volverse cada vez más probabilísticos para lograr estos objetivos. Como consecuencia, los problemas estadísticos involucrados, la verificación de la bondad del ajuste del modelo, la estimación de los parámetros desconocidos, etc., deberán manejarse con un cuidado y conocimiento cada vez mayores.

DL Burkholder

[Ver también ESTADÍSTICAS, DESCRIPTIVAS.]

BIBLIOGRAFÍA

Muchos libros de texto elementales sobre teoría estadística discuten los rudimentos de la estimación puntual, por ejemplo, Hodges & Lehmann 1964. Se encontrarán tratamientos más completos en Cramér 1945, Wilks 1962 y Kendall & Stuart 1946. La teoría de muestras grandes se trata en detalle en LeCam 1953. En el capítulo 5 de Wald 1950 se encontrará un análisis más detallado de la estimación desde el punto de vista de la función de pérdida. Lehmann 1959 trata la suficiencia y la invariancia con cierto detalle. El capítulo 15 de Savage 1954 contiene muchos comentarios esclarecedores sobre el problema de elegir un buen estimador.

CRAMÉR, HARALD (1945) 1951 Métodos matemáticos de estadística. Princeton Mathematical Series, No. 9. Princeton Univ. Presionar.

FISHER, RA (1922) 1950 Sobre los fundamentos matemáticos de la estadística teórica. Páginas 10.308a-10.368 en RA Fisher, Contribuciones a la estadística matemática. Nueva York: Wiley. → Publicado por primera vez en el volumen 222 de Philosophical Transactions, Serie A, de la Royal Society of London.

FISHER, RA (1925) 1950 Teoría de la estimación estadística. Páginas 11.699a-ll.725 en RA Fisher, Contribuciones a la estadística matemática. Nueva York: Wiley. → Publicado por primera vez en el Volumen 22 de las Actas de la Sociedad Filosófica de Cambridge.

HODGES, JOSEPH L. JR .; y LEHMANN, EL 1964 Conceptos básicos de probabilidad y estadística. San Francisco: Holden-Day.

KENDALL, MAURICE G .; y STUART, ALAN (1946) 1961 La teoría avanzada de la estadística. Volumen 2: Inferencia y relación. Nueva York: Hafner; Londres: Griffin. → Kendall fue el único autor de la edición de 1946.

KIEFER, J .; y WOLFOWITZ, J. 1952 Estimación estocástica de la función máxima de regresión. Annals of Mathematical Statistics 23: 462-466.

LECAM, LUCIEN 1953 Sobre algunas propiedades asintóticas de las estimaciones de máxima verosimilitud y estimaciones de Bayes relacionadas. California, Universidad de, Publicaciones en Estadística 1: 277-329.

LEHMANN, ERICH L. 1959 Prueba de hipótesis estadísticas. Nueva York: Wiley.

NEYMAN, JERZY 1937 Esquema de una teoría de la estimación estadística basada en la teoría clásica de la probabilidad. Royal Society of London, Philosophical Transactions Series A 236: 333-380.

PITMAN, EJG 1939 Estimación de la ubicación y escala de los parámetros de una población continua de cualquier forma dada. Biometrika 30: 391-421.

ROBBINS, HERBERT; y MONRO, SUTTON 1951 Un método de aproximación estocástico. Annals of Mathematical Statistics 22: 400-407.

SALVAJE, LEONARD J. 1954 Los fundamentos de la estadística. Nueva York: Wiley.

WALD, ABRAHAM 1939 Contribuciones a la teoría de la estimación estadística y la prueba de hipótesis. Annals of Mathematical Statistics 10: 299-326.

WALD, ABRAHAM (1950) 1964 Funciones de decisión estadística. Nueva York: Wiley.

WILKS, SAMUEL S. 1962 Estadística matemática. Nueva York: Wiley.

II INTERVALOS DE CONFIANZA Y REGIONES

Los procedimientos de intervalo de confianza —más generalmente, los procedimientos de la región de confianza— forman una clase importante de métodos estadísticos. En estos métodos, el resultado del análisis estadístico es un subconjunto del conjunto de posibles valores de parámetros desconocidos. Los procedimientos de confianza están relacionados con otros tipos de métodos estadísticos estándar, en particular con la estimación puntual y la prueba de hipótesis. En este artículo se describirán tales relaciones y se establecerán contrastes entre métodos de confianza y métodos superficialmente similares de otros tipos, por ejemplo, intervalos de estimación bayesianos [ver INFERENCIA BAYESIANA; ESTIMACIÓN, artículo sobre ESTIMACIÓN DE PUNTOS; PRUEBA DE HIPÓTESIS].

Como ejemplo de este tipo de procedimiento, suponga que la proporción de votantes que favorecen a un candidato debe estimarse sobre la base de una muestra. La respuesta más simple posible es dar una sola cifra, digamos el 47 por ciento; este es el tipo de procedimiento llamado estimación puntual.Dado que esta estimación de la proporción se deriva de una muestra, normalmente será diferente de la proporción real. ¿Qué tan lejos del valor real es probable que esté esta estimación? Esta pregunta puede responderse complementando la estimación con límites de error, digamos ± 0,5%. Así, se podría decir que la verdadera proporción se sitúa entre el 46,5% y el 47,5%. Esta afirmación puede ser falsa. Una tarea del estadístico es desarrollar un procedimiento para el cálculo de tales intervalos, un procedimiento que garantice que las declaraciones son verdaderas en, digamos, el 99 por ciento de todas las aplicaciones de este procedimiento. Estos procedimientos se denominan procedimientos de confianza.

Estimación por intervalos de confianza . Quizás sea más fácil comenzar con un ejemplo simple de la teoría de muestreo normal.

Ejemplo 1. Sea X 1 ,…, X n una muestra aleatoria de tamaño n de una distribución normal con media desconocida μ. y varianza conocida σ 2 . Entonces, la media muestral es un estimador puntual razonable de μ Por lo tanto, existen límites de error razonables en el siguiente sentido: el estimador X se encuentra entre y con probabilidad de .99. En otras palabras, el intervalo (,) contiene el estimador X con probabilidad .99; es decir, cualquiera que sea realmente el valor de μ,

Este enunciado de probabilidad se deriva directamente de los hechos que tiene una distribución normal unitaria y que una variable aleatoria normal unitaria se encuentra en el intervalo (-2.58, +2.58) con probabilidad .99.

A esta declaración se le puede dar una forma ligeramente diferente pero equivalente: el intervalo cubre μ, con probabilidad de .99, o lo que sea μ realmente,

El intervalo se denomina intervalo de confianza para μ con coeficiente de confianza (o nivel de confianza) .99. El intervalo de confianza es un intervalo aleatorio que contiene el valor verdadero con una probabilidad de .99. Tenga en cuenta que sería incorrecto decir, después de calcular el intervalo de confianza para una muestra en particular, que μ, caerá en este intervalo con una probabilidad de .99; porque μ es una constante desconocida en lugar de una variable aleatoria. Es el intervalo de confianza en sí mismo el que está sujeto a variaciones aleatorias.

En general, hay un parámetro desconocido, digamos θ, que se va a estimar y un estimador f (X) dependiendo de la muestra X = (X 1 ,…, X n ). En el ejemplo 1, θ se llama μ y f (X) es X̄. Como este estimador f se basa en una muestra aleatoria, él mismo está sujeto a variaciones aleatorias. Si f es un buen estimador, su distribución de probabilidad se concentrará estrechamente alrededor del valor verdadero, θ. A partir de esta distribución de probabilidad de f, a menudo se puede derivar un intervalo, con límite inferior c (θ) y límite superior c̄ (θ), que contiene el estimador f (X) con alta probabilidad β (por ejemplo, β= .99). Es decir, cualquiera que sea el valor real de θ,

A menudo, estas desigualdades se pueden invertir, es decir, se pueden especificar dos funciones θ̠ (X) y θ̄ (X) de manera que θ̠ (X) <θ <θ̄ (X) si y solo si c̠ (θ) <f (X) <c̄ (θ). Entonces, sea lo que sea θ realmente,

Esto significa que el intervalo (θ̠ (X), θ̄ (X)) contiene el valor verdadero θ con probabilidad β. Cantidades como θ̠ (X) y θ̄ (X) a menudo se denominan límites de confianza. En el ejemplo 1, los límites. C̠ (θ), c̄ (θ) y θ̠ (X), θ̄ (X) están dados por y, respectivamente.

También es posible desarrollar el concepto de un procedimiento de región de confianza en general, sin referencia a la estimación puntual. Denote por P θ la distribución de probabilidad asumida dependiendo de un parámetro θ (que en realidad puede ser un vector de varios parámetros univariados, es decir, de valor real). Sea θ el conjunto de todos los posibles valores de los parámetros θ. Por procedimiento de confianza se entiende una regla para asignar a cada muestra X un subconjunto del espacio de parámetros, digamos θ (X). Si θ (X) contiene el valor verdadero θ con probabilidad β, independientemente del valor verdadero de θ (es decir, si para todo θ ε θ, P θ {θεθ (X)} = β), entonces θ (X) es llamada región de confianza para θ. La probabilidad β de que el valor verdadero del parámetro esté cubierto por θ (X) se denomina coeficiente de confianza.

En el ejemplo 1, el intervalo es la región de confianza para la muestra X = (X 1 ,…, X n ) con un coeficiente de confianza de 0,99.

La probabilidad especificada por el coeficiente de confianza tiene la siguiente interpretación de frecuencia: Si se calcula un gran número de regiones de confianza en diferentes ocasiones independientes, cada una con un coeficiente de confianza β, entonces, a largo plazo, una proporción β de estas regiones de confianza contienen el verdadero valor del parámetro. Existe cierto peligro de mala interpretación. Esto ocurre si θ en sí se considera erróneamente como una variable aleatoria y la declaración de confianza tiene la siguiente forma: la probabilidad es β de que θ caiga en el conjunto de confianza calculado θ (X). Debe quedar claro que θ (X) es la cantidad aleatoria y no θ.

En las aplicaciones más simples, θ es un parámetro real y la región de confianza θ (X) es un intervalo adecuado (θ̠ (X), θ̄ (X)) o un intervalo semi-infinito: (-∞, θ̄ (X) o (θ̠ (X), + ∞). Si para todo θ, P θ (θ <θ̄ (X)) = β, entonces θ̄ (X) se llama un límite de confianza superior para θ con coeficiente de confianza β. De manera similar, θ̠ ( X) es un límite de confianza inferior.

Sean θ̠ (X) y θ̄ (X) los límites de confianza superior e inferior con coeficientes de confianza β 1 y β 2 , y suponga que θ̠ (X) <θ̠ (X) para todas las muestras X. Entonces, el intervalo (θ̠ (X) , θ̄ (X) es un intervalo de confianza con coeficiente de confianza β 1 + β 2 – 1. Si β 1 = β 2 , es decir, si P θ {θ̄ (X) <θ} = P θ {θ <θ̠ (X )}, el intervalo de confianza (θ̠ (X), θ̄ (X)) se llama central.

Ejemplo 2. Como en el ejemplo 1, sea X = (X 1 ,…, X n ) una muestra de n variables aleatorias independientes distribuidas normalmente con media desconocida μ y varianza conocida σ 2 . Entonces es un límite de confianza superior para μ al nivel de confianza .99. Por lo tanto, es un intervalo de confianza semi-infinito para μ con coeficiente de confianza .99, tal cual. Por lo tanto, es un intervalo de confianza central para μ con coeficiente de confianza .98 = .99 +, 99 – 1. Este intervalo de confianza central difiere del del ejemplo 1 en que este último tiene un coeficiente de confianza de .99 y es correspondientemente más amplio.

Ejemplo 3. Sea X = (X 1; …, X n ) una muestra aleatoria de una distribución normal con media conocida μ = 0 y varianza desconocida σ 2 . En este caso es un estimador razonable de σ 2 . (Se usa un subíndice en porque luego denotará una cantidad más común, relacionada, pero diferente). Suponga que n = 10. Entonces, el intervalo de confianza central para σ 2 con coeficiente de confianza .98 está dado por (10S 2 1 /23.21, 10S 2 1 / 2,56). Las constantes 23.21 y 2.56 se obtienen fácilmente de una tabla de cuantiles para la distribución chi-cuadrado, para nS 2 / σ 2tiene una distribución de chi-cuadrado con 10 grados de libertad. Este ejemplo muestra que los puntos finales de un intervalo de confianza generalmente no son simétricos alrededor del estimador puntual habitual.

Relación con la estimación puntual. El cálculo de los intervalos de confianza a menudo se denomina estimación de intervalo , en contraste con la estimación puntual . Como se describió anteriormente, en muchos casos prácticos, la estimación de intervalo proporciona información sobre la precisión de las estimaciones puntuales. Sin embargo, la definición general de intervalos de confianza es independiente del problema de la estimación puntual.

En muchos casos, un estimador puntual particular está relacionado con el conjunto de intervalos de confianza centrales. Uno forma el estimador para una muestra dada pensando en los intervalos que se van estrechando progresivamente a medida que el nivel de confianza desciende hacia cero. Salvo en casos patológicos, el intervalo se reducirá hasta un punto, cuyo valor numérico proporciona el estimador. Tal estimador es, para distribuciones continuas, mediana insesgada; es decir, es igualmente probable que esté por encima y por debajo del parámetro subestimado.

Relación con la prueba de hipótesis. La teoría de los intervalos de confianza está estrechamente relacionada de manera formal con la teoría de la prueba de hipótesis [ver PRUEBA DE HIPÓTESIS].

Ejemplo 4 . En el ejemplo 1, el intervalo de confianza para μ con coeficiente de confianza .99 fue dado por. Para probar la hipótesis μ = μ 0 contra la alternativa μ ≠ μ 0 al nivel de significancia .01, acepte la hipótesis si

rechazarlo de otra manera. Esta es la prueba habitual de dos caras.

Obsérvese que, dado X̄, el intervalo de confianza consta de todos aquellos valores μ 0 para los que se aceptaría la hipótesis μ = μ 0 . En otras palabras, el intervalo de confianza consiste en todo μ 0 cuya región de aceptación contiene el X̄ dado.

Por otro lado, dado el intervalo de confianza con coeficiente de confianza .99, es fácil realizar una prueba de una hipótesis μ = μ 0 : Aceptar la hipótesis si el valor hipotético μ 0 pertenece al intervalo de confianza; de lo contrario, rechace la hipótesis. Así procediendo, el patrón es precisamente el de contrastar la hipótesis μ = μ 0 , ya que μ 0 pertenece al intervalo de confianza si y solo si se cumple (3), es decir, si se aceptara la hipótesis μ = μ 0 según el procedimiento de prueba.

Esta dualidad se ilustra generalmente en la Figura 1. La figura es directamente significativa cuando hay un solo parámetro (real) θ y cuando la muestra se puede reducir a una sola variable aleatoria (real). La última reducción se puede lograr con frecuencia a través de una estadística suficiente [ ver SUFICIENCIA]. Cuando el problema es más complejo, la figura sigue siendo de uso esquemático.

La figura muestra que para cada valor de θ hay una región de aceptación, A (θ), ilustrada como

intervalo. Las dos curvas determinan los límites inferior y superior de este intervalo, respectivamente. El conjunto de todos aquellos θ para los cuales A (θ) contiene una X dada, θ (X), es el intervalo en la vertical a través de X entre las dos curvas.

Si la representación gráfica se considera de forma horizontal (en términos del eje X), la curva inferior representa el límite de confianza inferior θ̠ (X) en función de X, y de manera similar, la curva superior representa el límite de confianza superior θ̄ (X ). Si se considera desde la izquierda (en términos del eje θ), las funciones θ̠ (X) y θ̄ (X) según X se invierten en las funciones c̄ (θ) y c̠ (θ) respectivamente, según θ. (Por eso las letras están volteadas).

La dualidad general entre la prueba de hipótesis simples y los procedimientos de confianza se puede describir de la siguiente manera: Sea θ el conjunto de valores de parámetros desconocidos y suponga que a cada muestra X se le asigna un conjunto de confianza θ (X), tal que P θ {θ ε θ (X)} = β para todo θ ε θ. Sobre la base de dicho procedimiento de confianza, una prueba para cualquier hipótesis θ = θ 0 puede definirse fácilmente de la siguiente manera: Sea A (θ) el conjunto de todo X, tal que θεθ̠ (X). Entonces los eventos XεA (θ) y θεθ (X) son equivalentes, de donde P θ {X ε A (θ)} = P θ {θ ε θ (X)} = β. Por lo tanto, si se toma A (θ 0 ) como la región de aceptación para probar la hipótesis θ = θ 0, se obtiene una prueba con probabilidad de aceptación β (o nivel de significancia α = 1 – β). Por otro lado, dada una familia de regiones de aceptación (es decir, para cada hipótesis θεθ una región de aceptación A (θ) contiene la muestra X con probabilidad β cuando θ es el caso), es posible definir un procedimiento de confianza asignando a la muestra X, el conjunto θ (X) de todos θ para los que A (θ) contiene X (es decir, el conjunto de todos los valores de los parámetros θ para los que la hipótesis θ sería aceptada en la evidencia X). Entonces, nuevamente θε si y solo si XεA (θ), de donde P θ {θεθ (X)} = P θ{XεA (θ)} = β. Estas observaciones se refieren únicamente al caso de hipótesis simples. En la práctica, el caso más importante de hipótesis compuestas surge si están presentes varios parámetros reales y la hipótesis consiste en especificar el valor de uno de estos. (Este caso se trata en “Parámetros de molestia”, a continuación).

En circunstancias excepcionales, el conjunto de confianza θ (X) puede mostrar una propiedad desagradable: para algunos X, θ (X) puede estar vacío, o puede ser idéntico a todo el espacio de parámetros, θ. Estos casos suelen tener poca relevancia práctica.

Por lo tanto, una declaración de confianza contiene mucha más información que la conclusión de una prueba de hipótesis: esta última solo dice si una hipótesis especificada es compatible con la evidencia o no, mientras que la declaración de confianza proporciona información de compatibilidad sobre todas las hipótesis relevantes.

Optimidad. La dualidad entre los procedimientos de confianza y las familias de pruebas implica una correspondencia natural entre las propiedades óptimas de los procedimientos de confianza y las propiedades óptimas de las pruebas.

Un procedimiento de confianza con la región de confianza θ ′ (X) se considera más preciso si θ ′ (X) cubre cualquier valor diferente del valor real con menor probabilidad que cualquier otra región de confianza θ (X) con el mismo coeficiente de confianza:

Otra expresión que se usa ocasionalmente en lugar de “más precisa” es “más selectiva”. El término “más corto”, introducido originalmente por Neyman, ahora es inusual debido al peligro de confundir los intervalos de confianza más cortos y los intervalos de confianza de longitud mínima.

La familia de pruebas correspondientes a los procedimientos de confianza más precisos consta de pruebas uniformemente más potentes: sean A ′ (θ) y A (θ) las regiones de aceptación correspondientes a las regiones de confianza θ ′ (X) y θ (X) respectivamente; luego

Por lo tanto, al usar la región de aceptación A ′ la falsa hipótesis θ se acepta con menor probabilidad que al usar A.

Las pruebas uniformemente más potentes existen solo en casos excepcionales. Por lo tanto, lo mismo es válido para los procedimientos de confianza más precisos. Sin embargo, si la clase de pruebas está restringida (a pruebas no sesgadas o pruebas invariantes, por ejemplo), la clase restringida a menudo contiene una prueba uniformemente más poderosa dentro de esa clase. De manera similar, a menudo se pueden obtener las pruebas más poderosas contra una clase restringida de alternativas. En el caso de un parámetro real, normalmente se puede encontrar una prueba para la hipótesis θ 0 que es más poderosa contra todo θ> θ 0 . Todas estas propiedades óptimas restringidas de las pruebas conducen a las propiedades óptimas restringidas correspondientes de los procedimientos de confianza.

Un procedimiento de confianza se llama insesgado si la región de confianza no cubre ningún valor de parámetro diferente del valor verdadero con una probabilidad mayor que su probabilidad de cubrir el valor verdadero. La propiedad correspondiente de las pruebas también se denomina imparcialidad. Por lo tanto, las familias de pruebas insesgadas uniformemente más poderosas conducen a los procedimientos de confianza insesgados más precisos, es decir, los procedimientos de confianza que son más precisos entre los procedimientos de confianza insesgados: No existen otros procedimientos de confianza insesgados que conduzcan a regiones de confianza que contengan algún valor diferente del verdadero. valor con menor probabilidad. El intervalo de confianza dado en el ejemplo 1 es insesgado y el más preciso entre todos los procedimientos de confianza insesgados con coeficiente de confianza de 0,99. Por otro lado, el intervalo de confianza dado en el ejemplo 3 no es insesgado.

Las propiedades óptimas discutidas anteriormente están relacionadas con los conceptos de optimalidad derivados de la dualidad para la prueba de hipótesis. Un concepto completamente diferente es el de longitud mínima. Por ejemplo, el intervalo de confianza dado en el ejemplo 1 es de longitud mínima. En general, la longitud del intervalo de confianza es en sí misma una variable aleatoria, como en el ejemplo 3. Por lo tanto, es natural considerar un procedimiento de confianza como óptimo si la longitud esperada de los intervalos de confianza es mínima. Este concepto es apropiado para intervalos de confianza bilaterales. Para los intervalos de confianza unilaterales, el concepto no es aplicable de inmediato, ya que en este caso la longitud es infinita. Sin embargo, el valor esperado del valor límite del intervalo de confianza unilateral puede sustituirse por la longitud esperada.

En general, los intervalos de confianza con una longitud mínima esperada son diferentes, por ejemplo, de los intervalos de confianza insesgados más precisos (cuando existen tales intervalos). Sin embargo, en circunstancias especiales (incluido el supuesto de que las distribuciones de la familia tienen la misma forma y solo difieren en la ubicación), los procedimientos de confianza invariantes tienen la longitud mínima esperada. El procedimiento de confianza dado en el ejemplo 3 no tiene la longitud mínima esperada.

Dos objeciones que pueden plantearse contra el uso de la longitud esperada como criterio son (1) cuando un intervalo de confianza no cubre el valor real del parámetro, un intervalo corto es indeseable porque pretende una gran precisión cuando no hay ninguno, y (2 ) la longitud esperada depende en gran medida del modo de parametrización, por ejemplo, no existe una relación clara entre la longitud esperada de un intervalo de confianza para θ y la del intervalo inducido para θ 3 .

Distribuciones discretas. En la consideración general anterior se asumió que existe un procedimiento de confianza con coeficiente de confianza β en el sentido de que, para todo θ en θ, la probabilidad de cubrir el parámetro θ es exactamente β cuando θ es el parámetro verdadero. Esto significa que para cada θ existe una región de aceptación A (θ) tal que

P θ {A (θ)} = β. Sin embargo, esto es cierto en general solo para distribuciones de tipo continuo, no para distribuciones discretas como las distribuciones binomial y de Poisson [ ver DISTRIBUCIONES, ESTADÍSTICAS]. Por lo tanto, se deben elegir las regiones de aceptación A (θ) de probabilidad aproximadamente β, con el grado de aproximación dependiendo de θ . En la práctica, la región de aceptación se selecciona de manera que P θ {A (θ)} se aproxime a β lo más cerca posible, con o sin la restricción P θ {A (θ)}> β. Estas regiones de aceptación A (θ) definen las regiones de confianza θ (X) con un coeficiente de confianza (aproximado) β. Cuando la restricción P θ{A (θ)}> β, el término “región de confianza acotada” se usa a menudo y se dice que la región tiene un nivel de confianza acotado β.

Ejemplo 5 . Sea X el número de éxitos en n ensayos dicotómicos independientes con probabilidad constante p de éxito. Entonces X se distribuye binomialmente, es decir,. Elija el coeficiente de confianza β = .99. Elija para cada p , 0 < p <1, el entero más pequeño c (p) tal que

Al invertir el límite c (p) se obtienen intervalos de confianza unilaterales del coeficiente de confianza .99 para p .

Como ilustración, sea n = 20 y p = .3. Dado que P {X ≤ 11} = .995 y P {X <10} = .983, el entero más pequeño tal que P {X ≤ c (p)} ≥ 0.99 es c (p) = 11. Cálculos problemáticos de c ( p) puede evitarse mediante el uso de una de las tablas o figuras proporcionadas a tal efecto. Para referencias ver Kendall y Stuart ([1943-1946] 1961, p. 118).

Parámetros molestos.En muchos problemas prácticos, interviene más de un parámetro. A menudo, el interés se concentra en uno de estos parámetros, digamos θ, mientras que los demás se consideran parámetros molestos. El objetivo es hacer una declaración de confianza sobre θ que sea cierta con alta probabilidad independientemente de los valores de los parámetros de molestia. El problema de prueba correspondiente es el de probar una hipótesis compuesta que especifica el valor de θ sin hacer ninguna afirmación sobre los parámetros de molestia. Se requiere que la prueba tenga un nivel de significancia menor o igual a un prescrito independientemente de los parámetros molestos. El procedimiento de confianza correspondiente producirá intervalos de confianza que cubren el valor real al menos con probabilidad 1 – α independientemente de los parámetros de molestia, es decir, intervalos de confianza con nivel de confianza acotado 1 – α. Las llamadas pruebas similares desempeñan un papel especial, que tienen exactamente un nivel de significancia α para todos los valores de los parámetros molestos. Conducen a intervalos de confianza que cubren el valor real con probabilidad exactamente 1 – α independientemente de los parámetros molestos.

Ejemplo 6 . Sea X 1 ,…, X n una muestra aleatoria de una distribución normal con media desconocida μ y varianza desconocida σ 2 . La varianza σ 2 debe considerarse un parámetro de molestia. Sea X̄ = σ i X i / n y. Para n = 10, un intervalo de confianza (similar) para μ con coeficiente de confianza de 0,99 viene dado por X̄ – 3,17 S / √10μ <X̄ + 3,17 S / √10. Para n general , el intervalo de confianza con coeficiente de confianza .99 viene dado por, donde t .005.n-1 es el punto superior de .005 de la distribución t de la tabla con n – 1grados de libertad, por ejemplo t .005.9 = 3.17. Por tanto, el procedimiento de confianza anterior corresponde a la prueba t habitual. En cuanto a n grande , debido a que t .005.nt está cerca de 2.58, el intervalo de confianza dado aquí corresponde para n grande al intervalo de confianza dado en el ejemplo 1. El procedimiento de confianza dado aquí es más exacto entre los procedimientos de confianza insesgados.

Ejemplo 7 . Considere μ en el ejemplo 6 como el parámetro de molestia. Defina S 2 como en el ejemplo 6 y tome nuevamente n = 10. Luego, un intervalo de confianza unilateral para σ 2 del coeficiente de confianza .99 viene dado por σ 2 ≤ 9 S 2 /2.09. En general, el intervalo de confianza unilateral para σ 2 con coeficiente de confianza .99 viene dado por σ ≤ (n -1) S 2 / X 2 .01, n-1 , donde X 2 .01, n-1 es el 0.01 punto más bajo de la distribución de chi-cuadrado con n – 1 grados de libertad. Observe que aquí el número de grados de libertad es n – 1 mientras que en el ejemplo 3 es n.

Coeficiente de confianza. La duración esperada del intervalo de confianza depende, por supuesto, del coeficiente de confianza. Si se elige un coeficiente de confianza más alto, es decir, si se desea un enunciado verdadero con mayor probabilidad, este enunciado tiene que ser menos preciso; el intervalo de confianza debe ser más amplio.

Es difícil dar reglas generales para la selección de coeficientes de confianza. Los valores tradicionales son .90, .95 y .99 (correspondientes a niveles de significancia de .10, .05 y .01, respectivamente). Las consideraciones que se deben hacer a este respecto son las mismas que las consideraciones para elegir el tamaño de una prueba [ ver PRUEBA DE HIPÓTESIS ].

Procedimientos de confianza anidados . Uno esperaría que el intervalo de confianza más amplio (que pertenece al nivel de confianza más alto) encierre el intervalo de confianza más estrecho (que pertenece al nivel de confianza más bajo). Un procedimiento de confianza con esta propiedad se denomina “anidado”. Todos los procedimientos de confianza habituales están anidados, pero esta no es una propiedad completamente general de los procedimientos de confianza.

Tamaño de la muestra. Dado el coeficiente de confianza, la duración esperada del intervalo de confianza depende, por supuesto, del tamaño de la muestra. Las muestras más grandes contienen más información y, por lo tanto, conducen a declaraciones más precisas, es decir, a intervalos de confianza más estrechos.

Dado un problema específico, se puede determinar la precisión que es razonable requerir. Para estimar el número de amas de casa que conocen la existencia del detergente hiperactivo X, un intervalo de confianza de ± 5 por ciento probablemente será suficientemente exacto. Si, por el contrario, el objetivo es pronosticar el resultado de las elecciones y el porcentaje de votantes a favor de un partido específico fue del 48% en las últimas elecciones, una precisión de ± 5% sería bastante insuficiente. En este caso, probablemente se requiera un intervalo de confianza de longitud inferior a ± 1%.

Dada la precisión necesaria para el problema en cuestión, se puede determinar el tamaño de muestra necesario para lograr esta precisión. Sin embargo, en general, el intervalo de confianza (y, por lo tanto, el tamaño de muestra necesario también) depende de parámetros de molestia. Suponga que se necesita un intervalo de confianza para la media desconocida μ, de una distribución normal con varianza desconocida σ 2 . Aunque en el ejemplo 6 se da un intervalo de confianza para el que no se necesita información sobre, dicha información es necesaria para calcular la longitud esperada del intervalo de confianza: La longitud del intervalo de confianza es 2t .005, n-1 S / √, el Por lo tanto, el valor esperado para n grande es casi igual a 2t .005, n-1σ / √n. Por lo tanto, para determinar el tamaño de muestra necesario n , se necesita cierta información sobre σ 2 . A menudo, la experiencia diaria o la información obtenida de estudios relacionados será suficiente para este propósito. Si no se dispone de información alguna, un estudio piloto relativamente pequeño producirá una estimación suficientemente precisa de σ 2 . Esta idea se trata rigurosamente en artículos sobre procedimientos secuenciales para obtener intervalos de confianza de una longitud determinada (Stein 1945). En el caso de la distribución binomial, no se necesita ninguna información previa, para σ = p (1 – p) ≤ ¼, cualquiera que sea p . Sin embargo, el uso de ¼ en lugar de σ 2 puede dar lugar a muestras excesivamente grandes si p está cerca de 0 o 1.

Robustez: procedimientos no paramétricos. Cualquier procedimiento estadístico parte de un modelo básico sobre la familia de distribuciones subyacente. En el ejemplo 1, por ejemplo, el modelo básico es el de una serie de variables aleatorias independientes distribuidas normalmente. Dado que nunca se sabe con certeza hasta qué punto se cumplen en la práctica estos supuestos básicos, los procedimientos estadísticos deseables son aquellos que sólo se ven ligeramente influenciados si se infringen los supuestos. Los procedimientos estadísticos con esta propiedad se denominan robustos [ ver PRUEBA DE HIPÓTESIS]. Otro enfoque consiste en abandonar, en la medida de lo posible, los supuestos sobre el tipo de distribución que conduce a procedimientos no paramétricos.

Como la dualidad entre familias de pruebas y procedimientos de confianza es cierta en general, las pruebas robustas o no paramétricas conducen a procedimientos de confianza robustos o no paramétricos, respectivamente. [ En Estadística no paramétrica se dan ejemplos que muestran la construcción de intervalos de confianza para la mediana de una distribución a partir de la prueba de signo y de la prueba de rango con signo de Wilcoxon . ]

Relación con la inferencia bayesiana . Si el parámetro no se considera como una constante desconocida sino como la realización de una variable aleatoria con una distribución previa dada, la inferencia bayesiana puede usarse para obtener intervalos de estimación que contengan el parámetro verdadero con probabilidad prescrita [ver inferencia bayesiana ].

Sin embargo, se pueden hacer declaraciones de confianza sin asumir la existencia de una distribución previa y, por lo tanto, los estadísticos a quienes no les gusta usar distribuciones previas “subjetivas” para la inferencia bayesiana prefieren las declaraciones de confianza. Una aplicación algo diferente, y quizás menos controvertida, de las distribuciones subjetivas previas es su uso para definir la denominada precisión subjetiva. Los procedimientos de confianza subjetivamente más precisos se definen de forma análoga a los más precisos promediando la probabilidad de cubrir el parámetro fijo con respecto a la distribución previa subjetiva. Se puede demostrar que un procedimiento de confianza más exacto es subjetivamente más exacto bajo cualquier distribución previa con una función de densidad positiva (Borges 1962).

Relación con la inferencia fiducial. La inferencia fiducial fue introducida por RA Fisher (1930). Este artículo y las publicaciones posteriores de Fisher contienen una regla para determinar la distribución fiducial del parámetro sobre la base de la muestra X [ ver INFERENCIA FIDUCIAL].

Como en la inferencia bayesiana, esta distribución se puede utilizar para calcular “intervalos fiduciales”, proporcionando información sobre el parámetro θ. El intervalo fiducial está conectado con un enunciado de probabilidad, que no admite, sin embargo, interpretación de frecuencia (aunque algunos defensores de los métodos fiduciales pueden estar en desacuerdo).

Para muchos problemas elementales, los intervalos fiduciales y los intervalos de confianza son idénticos. Pero esto no es cierto en general. Una de las propiedades atractivas de la inferencia fiducial es que conduce a soluciones incluso en los casos en los que el enfoque clásico fracasó hasta ahora, como en el caso del problema Behrens-Fisher.

Sin embargo, a muchos estudiosos les resulta difícil ver una justificación convincente para la regla de Fisher de calcular distribuciones fiduciales y encontrar una interpretación intuitiva de los enunciados de probabilidad conectados con intervalos fiduciales.

Una interpretación razonable de las distribuciones fiduciales sería una especie de distribuciones posteriores para el parámetro desconocido. Sin embargo, se puede demostrar que las distribuciones fiduciales no pueden usarse como distribuciones posteriores en general; una inferencia bayesiana, a partir de dos muestras independientes y utilizando la distribución fiducial de la primera muestra como distribución previa para calcular una distribución posterior a partir de la segunda muestra, conduciría en general a un resultado diferente de la distribución fiducial obtenida de ambas muestras tomadas juntas. Para la comparación del método fiducial y bayesiano, ver Richter (1954) y Lindley (1958).

Intervalos de predicción, intervalos de tolerancia. Mientras que los intervalos de confianza brindan información sobre un parámetro desconocido, los intervalos de predicción brindan información sobre futuras observaciones independientes. Por tanto, los intervalos de predicción son subconjuntos del espacio muestral, mientras que los intervalos de confianza son subconjuntos del espacio de parámetros.

Ejemplo 8 . Si X 1 ,…, X n es una muestra aleatoria de una distribución normal con media desconocida μ. y varianza desconocida σ 2 , el intervalo dado por es un intervalo de predicción que contiene una observación independiente futura X n + 1 con probabilidad 1 – 2α, si t α, n-1 es el punto α superior de la distribución t con n -1 grados de libertad. Tenga en cuenta que la probabilidad del evento

es 1 – 2α antes de que se observen las variables aleatorias X l , ċ, X n . Para un análisis más detallado de este ejemplo, véase Proschan (1953); para un análisis de un ejemplo similar, véase Mood y Graybill (1950, págs. 220–244, 297–299).

El intervalo de predicción, calculado en el ejemplo 8 anterior, no debe interpretarse en el sentido de que cubre una proporción α de la población. En un caso especial, el intervalo calculado de acuerdo con esta fórmula podría cubrir más o menos que la proporción α. Solo en promedio la proporción será α.

En muchos casos, se necesitan intervalos que cubran una proporción ³ con alta probabilidad, digamos β. Sin embargo, esto no es posible. En general, solo es posible dar reglas para calcular intervalos que cubran al menos una proporción ³ con alta probabilidad β. Los intervalos con esta propiedad se denominan regiones de tolerancia de proporción ³ con coeficiente de confianza β. En el caso normal, uno podría, por ejemplo, buscar una constante c , para ³ y β dados, tal que, cualesquiera que sean los valores de μ y σ

donde f (u; μ, σ) es la densidad normal con media μ. y varianza σ 2 .

Las constantes c, que conducen a un intervalo de tolerancia de proporción ³ (X̄ – cS, X̄ + cS) con coeficiente de confianza β, no pueden expresarse mediante una de las distribuciones estándar (como fue el caso en el ejemplo del intervalo de predicción tratado anteriormente ). Las tablas de c se pueden encontrar en Owen (1962, p. 127 y sig.). Para un análisis más detallado, véase Proschan (1953), y para los intervalos de tolerancia no paramétricos, véase Wilks (1942). [ Consulte también Estadísticas no paramétricas ].

Regiones de confianza. En problemas multivariados, los procedimientos de confianza que producen intervalos se generalizan a los que producen regiones de confianza.

Ejemplo 9 . Sean X e Y dos variables aleatorias distribuidas normalmente con medias desconocidas μ y ν, varianzas conocidas 2 y 1, y covarianza – 1. Una región de confianza para (μν) con coeficiente de confianza .99 está dada por (X – μ) 2 + 2 (X – μ) (Y – ν) + 2 (Y-ν) 2 ≤ 9.21. La figura 9.21 se obtiene de una tabla de chi-cuadrado, ya que la forma cuadrática de la izquierda se distribuye como chi-cuadrado con dos grados de libertad. La región de confianza es una elipse con centro (X, Y). Cuando tal región se describe en términos, digamos, de pares de rectas tangentes paralelas, el resultado puede considerarse útil en el marco de comparaciones múltiples. [ Consulte Hipótesis lineales , artículo sobre comparaciones múltiples ].

J. PFANZAGL

BIBLIOGRAFÍA

La teoría de los intervalos de confianza se desarrolla sistemáticamente en Neyman 1937; 1938b. Antes de Neyman, este concepto había sido utilizado ocasionalmente de una manera bastante vaga por varios autores, por ejemplo, por Laplace 1812, sección 16, aunque en algunos casos el significado actual fue claramente establecido, quizás primero por Cournot 1843, págs. 185-186. En Hotelling 1931 se da una formulación precisa sin teoría sistemática . En Neyman 1938a se da una descripción más detallada de la historia .

BOHGES, RUDOLPH 1962 Subjektivtrennscharfe Konfidenz-bereiche. Zeitschrift für Wahrscheinlichkeitstheorie 1: 47–69.

COURNOT, ANTOINE AUGUSTIN 1843 Exposition de la théorte des chances et des probabilités . París: Hachette.

FISHER, RA (1930) 1950 Probabilidad inversa. Páginas 22.527a-22.535 en RA Fisher, Contribuciones a la estadística matemática . Nueva York: Wiley. → Publicado por primera vez en el Volumen 26 de las Actas de la Sociedad Filosófica de Cambridge.

FISHER, RA 1933 Los conceptos de probabilidad inversa y probabilidad fiducial con referencia a parámetros desconocidos. Royal Society of London, Proceedings Series A 139: 343–348.

HOTELLING, HAROLD 1931 La generalización de la proporción de estudiantes. Annals of Mathematical Statistics 2: 360–378.

KENDALL, MAURICE G .; y STUART, ALAN (1943-1946) 1961 La teoría avanzada de la estadística . Volumen 2: Inferencia y relación. Nueva York: Hafner; Londres: Griffin. → Consulte especialmente las páginas 98-133 sobre “Estimación de intervalo: niveles de confianza” y las páginas 518–521 sobre “Intervalos de tolerancia sin distribución”. (Kendall fue el único autor de la primera edición).

LAPLACE, PIERRE SIMON DE (1812) 1820 Théorie analytique des probabilités . 3d ed., Rev. París: Courcier. → La mención de Laplace de los intervalos de confianza apareció por primera vez en la 2ª edición (1814).

LEHMANN, ERICH L. 1959 Prueba de hipótesis estadísticas . Nueva York: Wiley. → Véanse especialmente las páginas 78–83, 173–180 y 243–245.

LINDLEY, DV 1958 Distribuciones fiduciales y teorema de Bayes. Revista de la Real Sociedad de Estadística Serie B 20: 102–107.

MOOD, ALEXANDER M .; y GRAYBILL, FRANKLIN A. (1950) 1963 Introducción a la teoría de la estadística . 2d ed. Nueva York: McGraw-Hill. → Ver especialmente las páginas 220–244 sobre “Estimación de intervalo”. (Mood fue el único autor de la edición de 1950).

NEYMAN, JERZY 1937 Esquema de una teoría de la estimación estadística basada en la teoría clásica de la probabilidad. Royal Society of London, Philosophical Transactions Series A 236: 333–380.

NEYMAN, JERZY (1938a) 1952 Conferencias y conferencias sobre estadística matemática y probabilidad . 2d ed. Washington: Departamento de Agricultura de EE. UU. → Ver especialmente el Capítulo 4, “Estimación estadística”.

NEYMAN, JERZY 1938b L’estimation statistique traitee comme un probleme classique de probabilidad Actualites scientifiques et industrielles 739: 26–57.

OWEN, DONALD B. 1962 Manual de tablas estadísticas . Reading, Mass .: Addison-Wesley. → El autor dispone de una lista de adiciones y erratas.

PROSCHAN, FRANK 1953 Intervalos de confianza y tolerancia para la distribución normal. Revista de la Asociación Estadounidense de Estadística 48: 550–564.

RICHTER, HANS 1954 Zur Grundlegung der Wahrscheinlichkeitstheorie. Mathematische Annalen 128: 305–339. → Ver especialmente las páginas 336–339 ​​sobre “Konfidenzschluss y Fiduzialschluss”.

SCHMETTERER, LEOPOLD 1956 Einfilhrüng in die Mathematische Statistik . Berlín: Springer. → Ver especialmente el Capítulo 3 sobre “Konfidenzbereiche”.

STEIN, CHARLES 1945 Una prueba de dos muestras para una hipótesis lineal cuya potencia es independiente de la varianza. Annals of Mathematical Statistics 16: 243-258.

WILKS, SS 1942 Predicción estadística con especial referencia al problema de los límites de tolerancia. Annals of Mathematical Statistics 13: 400–409.