Calcular propiedades de distribuciones de probabilidad discretas

Calcular propiedades de distribuciones de probabilidad discretas


Este artículo muestra cómo calcular las propiedades de una distribución de probabilidad discreta a partir de definiciones básicas. Puede usar las definiciones para calcular la media, la varianza y la mediana de una distribución de probabilidad discreta cuando no existe una fórmula simple para estas cantidades.

Este artículo está motivado por dos preguntas computacionales sobre distribuciones de probabilidad discretas. La primera pregunta provino de un cliente de SAS que preguntaba cómo calcular la media de una distribución de probabilidad discreta. La segunda pregunta se refiere a la mediana de la distribución binomial, que es un ejemplo de distribución de probabilidad discreta. Cuando busqué la distribución binomial en Wikipedia y leí la siguiente oración: «En general, no existe una fórmula única para encontrar la mediana para una distribución binomial». Esto me hizo pensar en cómo el software calcula la mediana de las distribuciones discretas.

Momentos de una distribución de probabilidad discreta

Sea X una variable aleatoria discreta con una función de densidad F. Suponemos que X tiene una media, una varianza, una asimetría y una curtosis bien definidas.

La media de X es el primer momento de F. La media se calcula como la media ponderada de los valores de densidad: μ = ΣI XI F(XI),
donde la suma es sobre todos los valores posibles de X.

La varianza, la asimetría y la curtosis de una distribución de probabilidad son momentos centrales. También se definen como sumas ponderadas, donde los pesos son potencias de la desviación de la media. Por ejemplo, la varianza de cualquier distribución discreta es el segundo momento central: σ2 = ΣI (XI – µ)2 F(XI).

Veamos cómo se calculan la media y la varianza usando SAS. Para ilustrar, usamos la distribución binomial con parámetros PAGS=0.33 y norte=21. Es decir, X ~ binomial(PAGS, norte) indica el número de éxitos norte=21 intentos independientes donde la probabilidad de éxito es PAGS= 0,33 para cada ensayo. Para estos parámetros, X puede asumir valores en el rango {0,1,2,…,21}. A la derecha se muestra un gráfico de la función de densidad;

Se sabe que la media y la varianza de la distribución binomial son μ = notario público y σ2 = np(1-p)para que podamos verificar que nuestros cálculos son correctos.

Puede usar el paso SAS DATA para calcular estos tamaños, pero demostraré las fórmulas usando el método IML:

proc iml;
p = 0.33;                      /* prob of success for each trial */
n = 21;                        /* number of independent trioals */
 
/* apply the definitions */
x = 0:n;                       /* all possible values of X */
pdf = pdf("Binom", x, p, n);   /* density=pdf(), or use density formula */
meanDef = sum(x#pdf);          /* or inner product x`*pdf */
varDef  = sum((x-meanDef)##2 # pdf);
 
/* Check by using the formulas for Binom(p, n):
   mean = n*p   -and-   variance = n*p*(1-p)
*/
mu = n*p;
var = n*p*(1-p);
print p n meanDef mu varDef var;

En el programa, la media y la varianza se calculan según los primeros principios utilizando la definición de media y varianza. Puede hacer este cálculo para cualquier distribución discreta. Hay fórmulas simples para la media y la varianza de la distribución binomial. El resultado muestra que las fórmulas concuerdan con el cálculo.

En este ejemplo, el rango de la variable aleatoria discreta es finito, por lo que es fácil sumar todos los valores posibles de X. Si X puede tomar infinitos valores, el cálculo se vuelve más complicado. Ejemplos de distribuciones de rango de densidad infinito son la distribución geométrica y la distribución de veneno. Para distribuciones como esta, la densidad debe disminuir geométricamente, por lo que hay un gran número norte de modo que para |X|>norte la probabilidad en las colas de la distribución es despreciable. Esto reduce el cálculo a una suma finita.

La definición de la mediana de una distribución discreta

En muchos libros de texto, la mediana de una distribución discreta se define como el valor X=metrotal que al menos el 50% de la probabilidad sea menor o igual a metro y al menos el 50% de la probabilidad es mayor o igual a metro. En símbolos, P(X≤metro) ≤ 1/2 y P(X≥metro) ≤ 1/2.

Desafortunadamente, esta definición puede no resultar en una mediana clara. Por ejemplo, la distribución binomial Binomial(PAGS=0.5, norte=21) no tiene una mediana clara porque:

  • metro=10 es una mediana porque P(X≤10) = 0,5 y P(X≥10) ≥ 0,5.
  • a través de la simetría, metro=11 es una mediana porque P(X≤11) ≥ 0,5 y P(X≥11) = 0,5.

Por convención, la mayoría del software establece que la mediana es el MENOR número que satisface la definición. Entonces, para el binomio (PAGS=0.5, norte=21) Distribución, la mayoría de los programas de software dan 10, no 11, como mediana.

Usando esta convención, puede calcular la mediana a partir de principios básicos sumando las densidades y encontrando el primer valor de X para el cual la densidad acumulada es igual o mayor que 0.5. Las siguientes declaraciones calculan la mediana para binomial (PAGS=0.33, norte=21) usando la definición y verifique la respuesta usando la función SAS QUANTILE:

/* use the definition of median to find the first value of X for which CDF >= 0.5 */
cdf = cusum(pdf);
GEHalf = loc(cdf >= 0.5);
medianDef = x[ GEHalf[1] ];  /* first value where CDF >= 1/2 */
 
/* check by calling the built-in QUANTILE function */
median = quantile("Binom", 0.5, p, n); 
print p n medianDef median;

Resumen

Aunque muchas distribuciones de probabilidad conocidas tienen fórmulas simples para la media, la varianza y la mediana de la distribución, no todas las distribuciones tienen fórmulas. Este artículo muestra cómo calcular la media, la varianza y la mediana de una distribución de probabilidad discreta a partir de definiciones básicas. Si la variable aleatoria X tiene una función de densidad Fluego:

  • La media es μ = ΣI XI F(XI)
  • La varianza es σ2 = ΣI (XI – µ) 2 F(XI)
  • la mediana metroes el valor más pequeño de X para el que se cumple P(X≤m) ≥ 1/2.

El artículo muestra cómo se calculan estos tamaños en SAS utilizando el software SAS/IML. Dejaré el cálculo del paso DATA para un ejercicio.

Related post

ML escribe la receta perfecta para nanoplacas con propiedades ópticas

ML escribe la receta perfecta para nanoplacas con propiedades…

Las nanoplacas de plata se utilizan en diversas aplicaciones, especialmente para la detección biomédica, la producción de alimentos, el cuidado de…
El óxido de grafeno muestra propiedades sorprendentes a nanoescala

El óxido de grafeno muestra propiedades sorprendentes a nanoescala

¿Un colador con más poros deja pasar más líquido? Según los científicos de materiales, dado su reciente descubrimiento, esta pregunta aparentemente…
Investigadores de Argonne: nueva forma de calcular el impacto ambiental de la producción de amoníaco

Investigadores de Argonne: nueva forma de calcular el impacto…

Los científicos evalúan cómo se puede hacer que la producción de amoníaco sea más sostenible. ¿Alguna vez te has preguntado sobre…

Leave a Reply

Tu dirección de correo electrónico no será publicada.