Portada » Matemáticas » Estadística para principiantes: conceptos y aplicaciones
En estadística, es fundamental comprender los conceptos de unidad de observación y variable:
Ejemplo 1: Una fábrica de lácteos quiere conocer la aceptación de un nuevo yogur de soja en Posadas. Ofrecen vasitos gratuitos a 5000 personas y preguntan si les gustaría consumirlo.
La estadística se divide en dos ramas principales:
Las variables se clasifican en:
Para datos agrupados en intervalos, se utilizan los siguientes gráficos:
Una medida de posición es un número que describe un conjunto de datos. Las más comunes son:
Las medidas de tendencia central se ubican en el centro de la distribución, cuando esta es unimodal y la mayor concentración de datos (mayores frecuencias) ocurre alrededor de los valores centrales de la variable. Son valores que tienden a ubicarse en el centro de la distribución. Incluyen:
Ventajas y desventajas: Para la mayoría, es un concepto familiar e intuitivo. Cada conjunto de datos tiene una media única, siempre calculable, que involucra todas las observaciones. Sin embargo, puede verse afectada por valores extremos.
Percentiles: Dividen los datos ordenados en cien partes iguales. Son útiles para ubicación y clasificación (peso, estatura, etc.). El p-ésimo percentil indica que al menos el p% de los elementos tienen ese valor o menos, y al menos el (100-p)% tiene ese valor o más.
Cuartiles: (Percentiles específicos) Dividen los datos en cuatro partes iguales.
Se utiliza la fórmula del cálculo del p-ésimo percentil para calcular los cuartiles.
Existen diferentes enfoques para calcular la probabilidad:
La distribución normal es una de las distribuciones continuas más importantes. Su función de densidad describe una curva en forma de campana, que se ajusta a muchos fenómenos naturales. Muchas distribuciones muestrales tienden a la normalidad a medida que aumenta el tamaño de la muestra. Los valores de probabilidad se obtienen mediante integrales definidas de la función de densidad continua (área bajo la curva).
Características de la curva Normal:
Algunas distribuciones importantes son:
Distribución Binomial: Ligada al experimento de Bernoulli (1654-1705).
Ensayo de Bernoulli: Experimento aleatorio con dos resultados mutuamente excluyentes e independientes: éxito o fracaso. Los ensayos de Bernoulli dan origen a una variable aleatoria que toma dos valores: X = 0 (fracaso) o X = 1 (éxito) con probabilidades.
Distribución Hipergeométrica: Se diferencia de la binomial en que la población es finita y se muestrea sin reemplazo, lo que afecta la probabilidad de éxito en cada observación. Además de tener una población finita y un muestreo sin reemplazo, la población estará dividida en dos grupos de individuos u objetos. Características que definen una variable aleatoria H: El experimento consiste en extraer al azar y sin reposición r elementos en la población de tamaño N que se identifican como éxitos y N-r de los cuales se identifican como fracasos. La probabilidad de éxito no permanece constante. Las pruebas no son independientes. La variable aleatoria hipergeométrica es el número de resultados éxitos en una muestra de n elementos.
Distribución de Poisson: Aplicable a procesos donde ocurren sucesos por unidad de tiempo, espacio, volumen, etc. Ej: número de accidentes por semana, personal que llega a un banco, errores por página. Da solución a problemas sobre el número de éxitos esperados por unidad de tiempo, espacio, volumen o área, similar a la binomial.
El análisis de correlación evalúa la relación entre dos variables. La ecuación de regresión predice el valor de Y dado un valor de X. El coeficiente de correlación (r) mide la proximidad de los puntos del diagrama de dispersión a la recta de regresión, o la fidelidad con que la recta describe la relación entre las variables.
La evaluación de la ecuación de regresión permite medir la bondad de ajuste de esta ecuación a los valores observados, es decir garantizara el uso de esta ecuación para predecir el valor probable de y correspondiente a un valor dado de x.
Ejemplos:
Coeficiente de Determinación (r2): Indica el porcentaje de variación de Y explicado por X en la recta de regresión. Se calcula elevando al cuadrado el coeficiente de correlación.