
La distribución de Bernoulli es una de las distribuciones más básicas y fundamentales de la estadística y la probabilidad. Aunque aparentemente simple, su impacto atraviesa desde fundamentos teóricos hasta aplicaciones modernas en ciencia de datos, aprendizaje automático y experimentos de la vida real. En esta guía, exploraremos qué es la distribución de Bernoulli, sus propiedades, relaciones con otras distribuciones, métodos de estimación e inferencia, y ejemplos prácticos que permitirán entender cómo se utiliza en diversos contextos. También ampliaremos la visión hacia la distribución de Bernoulli en mayúsculas cuando corresponda por nombre propio, y mostraremos cómo su simple modelo binario es la base de conceptos más complejos como la distribución binomial y las pruebas de hipótesis para proporciones.
¿Qué es la distribución de Bernoulli?
La distribución de Bernoulli es una distribución discreta que describe el resultado de un único ensayo con dos posibles resultados mutuamente excluyentes, típicamente etiquetados como 1 y 0. En términos probabilísticos, se llama distribución de Bernoulli cuando la variable aleatoria X toma el valor 1 con probabilidad p y el valor 0 con probabilidad 1 − p, donde 0 ≤ p ≤ 1. Esta definición básica se puede expresar de forma compacta como X ~ Bernoulli(p). En algunos textos también se usa la forma distribución de Bernoulli con la inicial mayúscula para referirse al nombre propio de la distribución, en particular cuando se habla de la historia o de las personas asociadas (como el matemático Jacob Bernoulli).
Ejemplo típico: pensar en el lanzamiento de una moneda sesgada donde la probabilidad de obtener cara (representada por 1) es p, y la probabilidad de cruz (representada por 0) es 1 − p. Si p = 0.6, la moneda tiene una alta probabilidad de dar 1 en ese experimento único.
Definición formal y notación
Una variable Aleatoria X sigue una distribución de Bernoulli con parámetro p si cumple las siguientes probabilidades de masa:
- P(X = 1) = p
- P(X = 0) = 1 − p
La notación habitual para describir este modelo es X ~ Bernoulli(p). En términos de lenguaje, X representa un resultado binario: éxitos (1) o fracasos (0) en un único ensayo, con la probabilidad de éxito p.
Parámetro p
El parámetro p es la probabilidad de que ocurra el “éxito” (el valor 1) en un ensayo único. Este valor puede ir desde 0 (nunca se obtiene 1) hasta 1 (siempre se obtiene 1). En la práctica, p se estima a partir de datos observados de ensayos independientes y se utiliza para predecir probabilidades y para construir intervalos de confianza y pruebas de hipótesis sobre la proporción de éxitos en una población.
Función de masa de probabilidad (PMF)
La función de masa de probabilidad para la distribución de Bernoulli se puede escribir de forma compacta como:
P(X = x) = p^x · (1 − p)^(1 − x) para x ∈ {0, 1}.
Esta fórmula resume el comportamiento binario de la distribución: si x es 1, la probabilidad es p; si x es 0, la probabilidad es 1 − p.
Propiedades clave de la distribución de Bernoulli
La distribución de Bernoulli es la base de varias propiedades estadísticas importantes. A continuación se presentan las características más relevantes:
Esperanza (valor esperado)
La esperanza de X en una distribución de Bernoulli es:
E[X] = p
Intuitivamente, es la probabilidad de obtener un éxito en un solo ensayo, y coincide con la media de los resultados (0 o 1) cuando se promedian muchos ensayos independientes.
Varianza
La varianza de X es:
Var(X) = p(1 − p)
La varianza alcanza su máximo en p = 0.5 y se reduce hacia 0 conforme p se aproxima a 0 o 1. Esta propiedad es útil para entender la cantidad de variabilidad esperada en resultados binarios con un determinado p.
Momento característico y MGF
La función de momento (moment generating function, MGF) de X ~ Bernoulli(p) es:
M_X(t) = E[e^(tX)] = 1 − p + p e^t
La MGF facilita el cálculo de momentos superiores y la caracterización de la distribución mediante técnicas de álgebra de series.
Relación con la distribución binomial
La distribución de Bernoulli es la pieza fundamental para construir la distribución binomial. Si se realizan n ensayos independientes, cada uno con X_i ~ Bernoulli(p), la suma de los resultados S = X_1 + X_2 + … + X_n tiene una distribución binomial:
S ~ Binomial(n, p)
En este contexto, la distribución binomial describe el número de éxitos en n ensayos independientes con la misma probabilidad de éxito p en cada ensayo.
Relación entre Bernoulli y Binomial: cómo se conectan
La conexión entre la distribución de Bernoulli y la distribución binomial es clave en estadística. El modelo binomial surge cuando se agrupan múltiples ensayos de Bernoulli independientes, cada uno con la misma probabilidad de éxito p. La variable binomial S indica cuántos éxitos ocurrieron entre los n ensayos. Esta relación permite abordar problemas de conteo en muestras grandes a partir de una base de ensayos simples.
Ejemplo práctico: si hacemos n = 10 ensayos de Bernoulli con p = 0.3, esperamos en promedio 3 éxitos. Sin embargo, la variabilidad está dada por Var(S) = n p (1 − p) = 10 · 0.3 · 0.7 = 2.1, lo que implica una dispersión típica en torno a 3.
Estimación e inferencia estadística para la distribución de Bernoulli
Cuando trabajamos con datos observados de ensayos binarios, la tarea principal suele ser estimar p y, a partir de ello, construir intervalos de confianza y realizar pruebas de hipótesis sobre la proporción de éxitos real en la población.
Estimación puntual de p
La estimación puntual más natural para p es la proporción de éxitos observados en una muestra de tamaño n. Si observamos k éxitos (1) y n − k fracasos (0), la estimación de p es:
p̂ = k / n
Esta estimación es intuitiva: es la frecuencia relativa de éxitos en la muestra y, bajo el supuesto de muestras representativas y ensayos independientes, es un estimador insesgado de p.
Intervalos de confianza para p
Existen varias formas de construir intervalos de confianza para p. Las dos aproximaciones más comunes son:
- Normal (aproximación asintótica): p̂ ± z_(α/2) · sqrt[p̂(1 − p̂)/n], donde z_(α/2) es el cuantil correspondiente del normal estándar. Esta aproximación es adecuada cuando n es grande y p no está muy cercano a 0 o 1.
- Wilson (intervalo de confianza de Wilson): ofrece mejores propiedades en muestras pequeñas o cuando p está cerca de 0 o 1. Mejora el comportamiento de los límites respecto a la estimación puntual.
Para escenarios con n pequeños o p cercano a 0 o 1, es recomendable usar métodos exactos como el intervalo de Clopper-Pearson u otros enfoques bayesianos, que pueden proporcionar límites más conservadores y fiables.
Pruebas de hipótesis para p
Una pregunta típica en investigación es si la probabilidad de éxito p es igual a algún valor específico p0. Se puede plantear la hipótesis nula H0: p = p0 frente a la alternativa H1: p ≠ p0 (o una de las variantes de cola única). Con muestras binomiales, la prueba puede basarse en:
- Prueba binomial exacta: compara la probabilidad de observar k éxitos bajo H0 y p0.
- Prueba aproximada basada en la distribución normal de p̂ para grandes n.
La construcción de la prueba depende del tamaño de la muestra y de los supuestos de independencia entre ensayos. En contextos modernos de ciencia de datos, a menudo se combinan pruebas de hipótesis con estimación de intervalos para obtener una visión completa de la proporción de éxitos en una población.
Generación y simulación de la distribución de Bernoulli
La simulación de X ~ Bernoulli(p) es una tarea común en programas de estadística y aprendizaje automático. En la práctica, se utiliza para generar datos binarios para pruebas, modelos y simulaciones de muestreo. Un esquema típico para generar una muestra de tamaño n de X_i ~ Bernoulli(p) es:
- Para cada i, generar un número aleatorio uniforme U_i en [0, 1].
- Asignar X_i = 1 si U_i < p; de lo contrario, X_i = 0.
Este procedimiento aprovecha la propiedad de que U_i < p ocurre con probabilidad p, lo que reproduce exactamente la distribución de Bernoulli.
Aplicaciones prácticas de la distribución de Bernoulli
La distribución de Bernoulli y su variante binomial se emplean en una amplia gama de dominios. A continuación se presentan algunas de las áreas y casos de uso más relevantes:
Ciencia de datos y aprendizaje automático
En aprendizaje automático, la distribución de Bernoulli sirve para modelar resultados binarios en clasificación binaria. Es un componente fundamental en modelos como la regresión logística, donde la variable de respuesta es 0 o 1 y se modela la probabilidad de un resultado positivo mediante funciones sigmoides. También se utiliza para generar etiquetas sintéticas, evaluar métricas como la precisión y construir simulaciones de conjuntos de datos desequilibrados.
Pruebas de hipótesis en medicina y biología
En estudios clínicos y biológicos, la distribución de Bernoulli es útil para modelar la ocurrencia de un evento de interés (p.ej., éxito de un tratamiento, recuperación de un paciente) en cada ensayo de un ensayo aleatorizado. A partir de los recuentos de éxitos, se estima la eficacia de un tratamiento y se comparan probabilidades entre grupos mediante pruebas de hipótesis sobre p.
Calidad y control de procesos
En control de calidad, los ensayos de Bernoulli se emplean para modelar defectos en productos. La proporción de productos defectuosos en un lote forma una estimación de p, que guía decisiones sobre aceptación, retrabajo o procesos de mejora.
A/B testing y experimentación digital
El A/B testing, común en marketing y desarrollo de productos, se apoya en la estimación de proporciones de conversión entre dos variantes. La distribución de Bernoulli y la distribución binomial subyacente permiten calibrar tamaños de muestra, calcular intervalos de confianza para la tasa de conversión y decidir qué variante es más eficaz con una evidencia estadística adecuada.
Errores comunes y conceptos erróneos
Al trabajar con la distribución de Bernoulli, es frecuente encontrarse con confusiones. Aquí se señalan algunos errores habituales y cómo evitarlos:
- Confundir Bernoulli con Binomial: Bernoulli describe un único ensayo; la Binomial describe la cantidad de éxitos en n ensayos independientes de Bernoulli.
- Ignorar la independencia: la estimación y las pruebas para p asumen que cada ensayo es independiente. Si hay dependencia, las fórmulas deben adaptarse o usar enfoques más robustos.
- Usar p cuando X es una sola variable: para una sola observación no hay distribución de Bernoulli; pero al repetirse el experimento varias veces, la aproximación se vuelve válida.
- Confusión entre p real y p estimado: siempre que se haga inferencia, debe indicarse claramente si se está trabajando con p o con p̂ como estimador.
Conexiones con otros conceptos estadísticos
La distribución de Bernoulli está estrechamente relacionada con varias ideas estadísticas y probabilísticas. Algunas conexiones útiles incluyen:
- Convergencia y leyes grandes: cuando se suman ensayos de Bernoulli independientes, la distribución binomial se acerca a una distribución normal para grandes n (aproximación normal) o a una aproximación de Poisson para p pequeño y n grande, bajo ciertas condiciones.
- Modelos de eventos raros: la aproximación de Poisson es útil para casos donde p es pequeño y el número de ensayos es grande, y se estudian eventos raros dentro de un intervalo de tiempo o espacio.
- Relación con otros modelos binarios: la Bernoulli es el bloque de construcción para modelos como la regresión logística, que modela la probabilidad de un evento binario en función de variables explicativas.
Ejemplos prácticos y casos de estudio
Para ilustrar estos conceptos, consideremos algunos ejemplos numéricos:
Ejemplo 1: estimación de p a partir de una encuesta
Imagina una encuesta que pregunta a 200 personas si les gusta un producto nuevo. Supongamos que 110 responden “sí” (éxito). La estimación de p es:
p̂ = 110 / 200 = 0.55
Un intervalo de confianza aproximado al 95% usando la aproximación normal sería:
p̂ ± 1.96 · sqrt[p̂(1 − p̂)/n] = 0.55 ± 1.96 · sqrt[0.55(0.45)/200] ≈ 0.55 ± 0.046
Entonces, el intervalo aproximadamente va de 0.504 a 0.596.
Ejemplo 2: prueba de hipótesis para p
Se quiere saber si la proporción de usuarios que aceptan una nueva característica es mayor a 0.5. Con la misma muestra anterior (n = 200, k = 110), la estadística para la prueba de hipótesis puede basarse en p̂ y su distribución. Si se asume normalidad, se calcula un valor z y se compara con un umbral crítico para el nivel de significancia deseado. Dependiendo del resultado, se puede concluir si hay evidencia suficiente para afirmar que p > 0.5.
Comparativas y consideraciones avanzadas
A medida que se avanza hacia modelos más complejos, la distribución de Bernoulli sirve como piedra angular. En escenarios con varias variables binarias o con estructuras de dependencia, pueden utilizarse enfoques bayesianos o modelos jerárquicos que integren el concepto de Bernoulli a niveles superiores.
En contextos de datos desequilibrados (por ejemplo, muy pocos éxitos), es útil considerar técnicas que mitiguen sesgos en la estimación de p y que empleen intervalos de confianza ajustados o métodos de bootstrap para una evaluación más robusta de la incertidumbre.
La historia y el significado de Bernoulli
La figura de Jacob Bernoulli, a quien se debe el nombre de esta distribución, dejó un legado profundo en la historia de la probabilidad. Aunque la idea de ensayos binarios se ha utilizado desde tiempos más antiguos, la formalización de la distribución de Bernoulli y su conexión con la desviación de resultados en experiments permitió sentar fundamentos para el desarrollo de la probabilidad y la estadística moderna. Entender este origen ayuda a apreciar por qué el modelo es tan robusto y versátil para describir fenómenos simples y repetibles.
Variantes y extensiones relacionadas
Además de la clásica distribución de Bernoulli, existen variantes y enfoques relacionados que amplían su utilidad:
- Bernoulli condicional: cuando la probabilidad de éxito p depende de una covariable o de una condición, dando lugar a modelos condicionales de Bernoulli.
- Regresión logística: un modelo estadístico que describe la relación entre una variable dependiente binaria y una o más variables explicativas mediante la función logística; la variable de resultado se modela como Bernoulli con una probabilidad p que depende de las covariables.
- Modelo mixto de Bernoulli: en contextos con estructuras de dependencia (p. ej., datos agrupados), se introducen componentes aleatorios para capturar la variabilidad entre grupos.
- Aproximaciones a Poisson y a Binomial: cuando se suman muchos ensayos Bernoulli con p pequeño, la distribución de Poisson puede aproximar la Binomial; para grandes n y p moderado, la normal puede aproximarse a la Binomial, que a su vez se fundamenta en Bernoulli.
Conclusiones finales
La distribución de Bernoulli, ya sea referida como distribución de Bernoulli o, en su versión con la inicial mayúscula para el nombre propio, es uno de los pilares de la estadística y la probabilidad. Su simplicidad —dos resultados posibles, con la probabilidad de éxito p— la convierte en una herramienta poderosa para entender y modelar la realidad en contextos binarios. Desde estimaciones de proporciones y pruebas de hipótesis hasta aplicaciones en aprendizaje automático y análisis de datos experimentales, la distribución de Bernoulli sigue siendo un motor central para la toma de decisiones basada en evidencia.
Al incorporar la distribución de Bernoulli en tus proyectos, recuerda que su validez depende de supuestos clave —independencia entre ensayos, misma probabilidad de éxito en cada ensayo— y que, en la práctica, siempre es recomendable verificar estos supuestos y, cuando sea necesario, adaptar los métodos a la complejidad de los datos. Con una comprensión sólida de estas ideas, podrás aplicar con rigor y claridad este modelo tan fundamental en una amplia variedad de problemas y dominios.