
Calcular propiedades de distribuciones de probabilidad discretas
- Inteligencia Artificial
- marzo 23, 2022
- No Comment
- 221
- 13 minutes read
Este artículo muestra cómo calcular las propiedades de una distribución de probabilidad discreta a partir de definiciones básicas. Puede usar las definiciones para calcular la media, la varianza y la mediana de una distribución de probabilidad discreta cuando no existe una fórmula simple para estas cantidades.
Este artículo está motivado por dos preguntas computacionales sobre distribuciones de probabilidad discretas. La primera pregunta provino de un cliente de SAS que preguntaba cómo calcular la media de una distribución de probabilidad discreta. La segunda pregunta se refiere a la mediana de la distribución binomial, que es un ejemplo de distribución de probabilidad discreta. Cuando busqué la distribución binomial en Wikipedia y leí la siguiente oración: «En general, no existe una fórmula única para encontrar la mediana para una distribución binomial». Esto me hizo pensar en cómo el software calcula la mediana de las distribuciones discretas.
Momentos de una distribución de probabilidad discreta
Sea X una variable aleatoria discreta con una función de densidad F. Suponemos que X tiene una media, una varianza, una asimetría y una curtosis bien definidas.
La media de X es el primer momento de F. La media se calcula como la media ponderada de los valores de densidad: μ = ΣI XI F(XI),
donde la suma es sobre todos los valores posibles de X.
La varianza, la asimetría y la curtosis de una distribución de probabilidad son momentos centrales. También se definen como sumas ponderadas, donde los pesos son potencias de la desviación de la media. Por ejemplo, la varianza de cualquier distribución discreta es el segundo momento central: σ2 = ΣI (XI – µ)2 F(XI).
Veamos cómo se calculan la media y la varianza usando SAS. Para ilustrar, usamos la distribución binomial con parámetros PAGS=0.33 y norte=21. Es decir, X ~ binomial(PAGS, norte) indica el número de éxitos norte=21 intentos independientes donde la probabilidad de éxito es PAGS= 0,33 para cada ensayo. Para estos parámetros, X puede asumir valores en el rango {0,1,2,…,21}. A la derecha se muestra un gráfico de la función de densidad;
Se sabe que la media y la varianza de la distribución binomial son μ = notario público y σ2 = np(1-p)para que podamos verificar que nuestros cálculos son correctos.
Puede usar el paso SAS DATA para calcular estos tamaños, pero demostraré las fórmulas usando el método IML:
proc iml; p = 0.33; /* prob of success for each trial */ n = 21; /* number of independent trioals */ /* apply the definitions */ x = 0:n; /* all possible values of X */ pdf = pdf("Binom", x, p, n); /* density=pdf(), or use density formula */ meanDef = sum(x#pdf); /* or inner product x`*pdf */ varDef = sum((x-meanDef)##2 # pdf); /* Check by using the formulas for Binom(p, n): mean = n*p -and- variance = n*p*(1-p) */ mu = n*p; var = n*p*(1-p); print p n meanDef mu varDef var; |
En el programa, la media y la varianza se calculan según los primeros principios utilizando la definición de media y varianza. Puede hacer este cálculo para cualquier distribución discreta. Hay fórmulas simples para la media y la varianza de la distribución binomial. El resultado muestra que las fórmulas concuerdan con el cálculo.
En este ejemplo, el rango de la variable aleatoria discreta es finito, por lo que es fácil sumar todos los valores posibles de X. Si X puede tomar infinitos valores, el cálculo se vuelve más complicado. Ejemplos de distribuciones de rango de densidad infinito son la distribución geométrica y la distribución de veneno. Para distribuciones como esta, la densidad debe disminuir geométricamente, por lo que hay un gran número norte de modo que para |X|>norte la probabilidad en las colas de la distribución es despreciable. Esto reduce el cálculo a una suma finita.
La definición de la mediana de una distribución discreta
En muchos libros de texto, la mediana de una distribución discreta se define como el valor X=metrotal que al menos el 50% de la probabilidad sea menor o igual a metro y al menos el 50% de la probabilidad es mayor o igual a metro. En símbolos, P(X≤metro) ≤ 1/2 y P(X≥metro) ≤ 1/2.
Desafortunadamente, esta definición puede no resultar en una mediana clara. Por ejemplo, la distribución binomial Binomial(PAGS=0.5, norte=21) no tiene una mediana clara porque:
- metro=10 es una mediana porque P(X≤10) = 0,5 y P(X≥10) ≥ 0,5.
- a través de la simetría, metro=11 es una mediana porque P(X≤11) ≥ 0,5 y P(X≥11) = 0,5.
Por convención, la mayoría del software establece que la mediana es el MENOR número que satisface la definición. Entonces, para el binomio (PAGS=0.5, norte=21) Distribución, la mayoría de los programas de software dan 10, no 11, como mediana.
Usando esta convención, puede calcular la mediana a partir de principios básicos sumando las densidades y encontrando el primer valor de X para el cual la densidad acumulada es igual o mayor que 0.5. Las siguientes declaraciones calculan la mediana para binomial (PAGS=0.33, norte=21) usando la definición y verifique la respuesta usando la función SAS QUANTILE:
/* use the definition of median to find the first value of X for which CDF >= 0.5 */ cdf = cusum(pdf); GEHalf = loc(cdf >= 0.5); medianDef = x[ GEHalf[1] ]; /* first value where CDF >= 1/2 */ /* check by calling the built-in QUANTILE function */ median = quantile("Binom", 0.5, p, n); print p n medianDef median; |
Resumen
Aunque muchas distribuciones de probabilidad conocidas tienen fórmulas simples para la media, la varianza y la mediana de la distribución, no todas las distribuciones tienen fórmulas. Este artículo muestra cómo calcular la media, la varianza y la mediana de una distribución de probabilidad discreta a partir de definiciones básicas. Si la variable aleatoria X tiene una función de densidad Fluego:
- La media es μ = ΣI XI F(XI)
- La varianza es σ2 = ΣI (XI – µ) 2 F(XI)
- la mediana metroes el valor más pequeño de X para el que se cumple P(X≤m) ≥ 1/2.
El artículo muestra cómo se calculan estos tamaños en SAS utilizando el software SAS/IML. Dejaré el cálculo del paso DATA para un ejercicio.