La Estadística se divide en dos ramas:
- La estadística descriptiva: que se dedica a los métodos de recolección, descripción, visualización y resumen de originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de descriptores numéricos son: la media y la desviación estándar. Resúmenes gráficos incluyen varios tipos de figuras y gráficos.
- La inferencia estadística: es una parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra). La bondad de estas deducciones se mide en términos probabilísticos, es decir, toda inferencia se acompaña de su probabilidad de acierto.
NOTA: Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada.
Analisis Estadistico: El análisis estadístico es todo el proceso de organización, procesamiento, reducción e interpretación de datos para realizar inferencias.
Poblacion: Es un numero de elementos o sujetos que componen una poblacion estadisticas en igual o mayor que el numero de elementos que se obtienen de una muestra.
Muestra: Todos aquellos elementos que se toman en cuenta para objeto de estudio.
Limites Reales: Sirven para mantener la continuidad de las clases
Anchura o tamaño del intervalo: es la diferencia entre los límites reales de una clase.
Número de clases: es el número total de grupos en que se clasifica la información, se recomienda que no sea menor que 5 ni mayor que 15.
Marca de Clase: Es el punto medio del intervalo de clase, se recomienda observar que los puntos medios coincidan con los datos observados para minimizar el error.
Frecuencia: es el número de veces que aparece un valor.
Frecuencia Acumulada: Indica cuantos casos hay por debajo o arriba de un determinado valor o límite de clase.
Frecuencia Relativa: Indica la proporción que representa la frecuencia de cada intervalo de clase en relación al total, es útil para comparar varias distribuciones con parámetros de referencia uniformes.
Frecuencia Acumulada Relativa: Indica la proporción de datos que se encuentra por arriba o debajo de cierto valor o límite de clase.
Medidas de tendecia central: Los promedios son una medida de posición que dan una descripción compacta de como están centrados los datos y una visualización más clara del nivel que alcanza la variable, pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor facilidad para efectuar comparaciones.
La media: es una medida matemática, un número individual que representa razonablemente el comportamiento de todos los datos.
desarrollada:
La moda: es el valor de un conjunto de datos que ocurre más frecuentemente, se considera como el valor más típico de una serie de datos.
La mediana: es el valor de la observación que ocupa la posición central de un conjunto de datos ordenados según su magnitud. Es el valor medio o la media aritmética de los valores medios. La mediana es un valor de la variable que deja por debajo de él un número de casos igual al que deja por arriba.
impar: par:
Varianza: es una medida de la dispersión de una variable aleatoria respecto a su esperanza . Se define como la esperanza de la transformación : esto es,
Está relacionada con la desviación estándar o desviación típica, que se suele denotar por la letra griega σ (sigma) y que es la raíz cuadrada de la varianza,
o bien.
La varianza muestral se calcula por medio de la siguiente formula
Mientras que la varianza poblacional, se determina por medio de la siguiente expresion:
Percentiles: Son valores que dividen a la población en cien partes iguales. Los representamos por PK. Evidentemente los percentiles 25, 50 y 75 coinciden con los cuartiles. Y los percentiles 10, 20 , ... , 90 coinciden con los deciles.
Datos Agrupados: Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente: k= 1,2,3
Donde:
Lk = Límite real inferior de la clase del cuartil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k.
fk = Frecuencia de la clase del cuartil k
c = Longitud del intervalo de la clase del cuartil k
Quartiles (Qx): Son los puntos que dividen a una distribucion de valores en 4 posiciones o intervalos iguales, y se representan por Q1 , Q2, Q3 y Q4.
El rango estadístico: es la diferencia entre el valor mínimo y el valor máximo en un grupo de números. Se simboliza con la letra R mayúscula. Se tiene
R = Vmax − Vmin.
Intervalo de clase: Rango utilizado para dividir el conjunto de posibles valores numéricos al trabajar con grandes cantidades de datos. Por ejemplo, si los valores están entre 1 y 100, se podrían definir grupos por medio de los intervalos 1-25, 26-50, 51-75, 76-100 cuando el intervalo de la clase es 25.
Histograma:En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase.
El tallo: se etiqueta utilizando los primeros dígitos de los valores que se encuentran dentro del intervalo. En cada fila, los valores de los datos individuales son representados por un dígito (llamado hoja) a la derecha de la línea vertical. Esto nos da un histograma de los datos del que puede recuperar al menos dos dígitos significativos de cada valor. Si hay cualquier punto que queda alejado de la mayoría de los otros (llamados puntos externos), se sitúan en tallos altos y bajos separados. En este caso, no hay ningún punto externo. Los puntos externos se representan en el gráfico de caja y bigotes, al cuál puede acceder a través del listado de Opciones Graficas. La columna de números situada más a la izquierda contiene el recuento acumulado desde la parte superior de la tabla hacia la inferior, deteniéndose en la fila que contiene la mediana.
Diagrama de caja (Box-Plot): Un diagrama de caja es un gráfico, basado en cuartiles, mediante el cual se visualiza un conjunto de datos.
En un gráfico que se suministra información sobre la mediana, El cuartil Q1 y Q3, sobre la existencia de atípicos y la simetría de la distribución.
Como dibujarlo:
- Ordenar los datos y obtener el valor mínimo, el máximo, y los cuartiles Q1, Q2 y Q3.
- Dibujar un rectángulo con Q1 y Q3 como extremos e indicar la posición de la mediana (Q2) mediante una línea.
- Considerar como atípicos los puntos localizados fuera del intervalo (Li, Ls).
- Dibujar las líneas que van desde cada extremo del rectángulo central hasta el valor más alejado no atípico.
- Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).