Índice

Tanto por uno
Escala ordinal
Estadísticos de orden
Cálculo de la moda estadística para datos agrupados en intervalos
Robustez estadística
Números índice
Población estadística
Corrección por continuidad
Tipificación
Macrodatos
Análisis descriptivo univarianteMedidas de tendencia centralCoeficiente de variaciónRecorrido (rango)
Análisi descriptivo bivarianteTabla de contingenciaAsociación estadísticaCovarianza
Nivel descriptivo
Escala de intervalo
Datos blandos
Variable dependiente
Definición operacional
Operacionalización
Muestra invitada
Muestra aceptante
Muestreo de aceptación

Estadística general

Un tanto por uno es una proporción, promedio o valor de referencia, que expresa el valor de una cantidad o magnitud por cada unidad de medida de una cantidad total. Por ejemplo, si por cada 20 euros en una operación, se van a cobrar 2 euros de comisión, el tanto por uno es 2/20=0.1; es decir, se va a cobrar 0.1 euros por cada euro en la operación.

Los tantos por uno son fácilmente trasladables a tantos por ciento o porcentajes, sinplemente multiplicando los tantos por uno por 100, por ejemplo, en el ejemplo anterior el porcentaje de comisión sería 0.1x100=10%.

La escala ordinal es una escala de medida que clasifica a los objetos a medir en relación al nivel o diferencia de grado que presentan respecto de una característica, mayor o menor, pero sin que sea posible establecer la distancia entre dos objetos. Por ejemplo, son ejemplo de escala ordinales la calificación académica cualitativa (aprobado-notable-sobresaliente), el estatus socioeconómico (renta baja-media-alta) o el nivel de satisfacción (bajo-neutral-alto). De esta forma, la escala ordinal es superior y proporciona más recursos para el análisis de los datos que la escala nominal, en el sentido de que además de permitir distinguir dos obejtos en relación a una característica, permite además clasificarlos en una escala de menor, mayor o igual; por le contrario, la escala ordinal es inferior a la escala de intervalo, ya que no permite establecer una diferencia cuantitativa entre objetos (por ejemplo, no podemos saber a través de una escala ordinal que diferencia de renta hay exactamente entre una renta media y alta).

Los estadísticos de orden son medidas o resúmenes aplicables a un conjunto de datos que proporcionan información sobre diferentes ubicaciones de orden o rango o porcentuales en este. Asi por ejemplo, son estadísticos de orden la mediana, como valor de la variable que deja a cada lado el 50% de los datos, el percentil 10, que deja por debajo a un 10% de los datos, o el valor máximo. Los estadísticos de orden referentes a un porcentaje son conocidos con el nombre cuantiles.

En el documento adjunto, se explica el cálculo aproximado de la moda estadística para una distribución de datos agrupada en intervalos. Puede visualizar y descargar el documento aquí, en formato PDF.

En estadística, robustez se refiere a la propiedad que tienen ciertos procedimientos estadísticos (test estadísticos, desarrollo de modelos, ...) de proporcionar consecuencias válidas incluso en el caso de que se vilen las hipótesis bajo las que se ha desarrollado el procedimiento. Por ejemplo, es habitual en muchos procedimientos establecer como hipótesis una población acorde a la distribución normal; si los resultados y conclusiones obtenidas son aproximadamente iguales incluso en el caso de que la distribución normal no sea real o adecuada a los datos obtenidos, diremos que el procedimiento es robusto.

En el caso especial de los estimadores, se dice que un estimador es robusto, si es resistente a la presencia de valores atípicos (outliers), es decir, si el valor del estimador no se ve afectado o se ve afectado en pequeña medida por la presencia de dichos valores.

Los números índice son series de valores que indican la evolución en el tiempo de una o mas variables. Se utilizan sobre todo en el ámbito económico, por ejemplo para medir la evolución de los precios (tal como el IPC, Índice de Precios al Consumo).

Para calcular una serie de números índice es necesario fijar un periodo base o de referencia, con cuyo valor se compararán los valores de los periodos posteriores. El número índice en este periodo base toma el valor 100. A partir de ahí existen múltiples fórmulas para el calculos de los índices. Los números índice simples determinan la evolución de una única variables a través de una simple división. Por ejemplo, si los precios de un mismo producto en 2018 y 2019 fueron 4€ y 5€ respectivamente y tomamos como base 2018, el índice correspondiente al año 2019 es 5/4x100=125, determinando de esta forma que el precio en 2019 subió un 25%.

En la práctica es frecuente en cambio tener que agregar precios de diferentes productos y calcular su evolución conjunta. Para ello se calculan los números índice complejos, que pueden ser sin ponderar y ponderados. Los índices complejos sin ponderar agregan las diferentes variables de forma directa (en el caso de los precios, se sumarían directamente por ejemplo), pero generalmente hay que tener en cuenta que los precios vienen referidos a productos con diferentes consumos o producciones, por lo que deben ser ponderados o tratados de forma diferente según dichos consumos o producciones. Existen diferentes fórmulas de índices complejos ponderados: los índices de tipo Laspeyres ponderan los precios según la cantidad (consumo o producción) del periodo base, de modo que su cálculo es relativamente simple al requerir únicamente las cantidades del periodo inicial; los índice Paasche ponderan los precios según las cantidades de cada periodo, de modo que la evolución cuantitativa que se obtiene puede ser más realista, pero requiere también de más información, más concretamente de las cantidades de cada periodo.

Una población estadística está formada por un conjunto de elementos o individuos con características variables pero homogéneas o regulares del que se desea conocer algo en una investigación estadística. La homogeneidad es importante a la hora de definir una población, con el objetivo de evitar problemas de significatividad de los resultados obtenidos; por ejemplo si se desea investigar el número de trabajadores en las empresas, sería conveniente distinguir poblaciones por sector, teniendo en cuenta que los sectores económicos presentan grandes diferencias en relación a esa variable.

Generalmente es inviable recoger datos referidos a cada uno de los elementos que conforman la población, por lo que se hace necesario escoger una muestra de dicha población, que la represente de forma más o menos significativa. Analizando las características de la muestra, se estiman los parámetros o características del conjunto de la población, teniendo por supuesto en cuenta el error muestral que existe en ese proceso de inferencia.

Las probabilidades de una distribución discreta como la de la imagen se calculan más facilmente a través de una distribución continua que se ajuste a las probabilidades discretas determinadas por la altura de cada barra. En este caso, la distrubución continua a utilizar como aproximación sería la distribución normal.La corrección por continuidad o corrección de continuidad es una corrección a realizar en el cálculo de una probabilidad relativa a una distribución discreta cuando para ello se utiliza una distribución continua.

Lo más comodo a la hora de modelizar una variable aleatoria discreta que toma muchos valores diferentes es utilizar una distribución de probabilidad continua: operar con probabilidades en distribuciones discretas supone operar con sumatorios, que frecuentemente resultan de difícil desarrollo, mientras que con una distribución continua el cálculo de probabilidades se realiza mediante la aplicación directa de una función. Sin embargo, cuando utilizamos una distribución continua son posibles valores como 3.23, 10.532, 0.22222, que en la distribución discreta normalmente no tienen un significado claro. Por otra parte, en una distribución discreta tiene sentido la probabilidad de un valor en concreto, mientras que cuando utilizamos la distribución continua la probabilidad de un valor concreto, un mero punto en un intervalo continuo, es teoricamente 0. Para corregir esos desajustes se utiliza la corrección de continuidad: por ejemplo, un valor continuo de 3.23 se redondea a un valor discreto de 3; y un valor de 3.66 a 4. Asi para calcular la probabilidad que la variable aleatoria discreta tome el valor 3, determinariamos en la variable continua la probabilidad de que la variable se encuentre entre 2.5 y 3.5. De esta forma,  la corrección de continuidad se realiza de esta forma: [latexpage]

$$P[X_{discreta}=x]=P[x-0.5<X_{continua}<x+0.5]$$

Para probabilidades acumuladas la corrección de continuidad se ejecuta de forma análoga:

$$P[X_{discreta}\leq x]=P[X_{discreta}<x+0.5]$$

$$P[X_{discreta}<x]=P[X_{discreta}<x-0.5]$$

$$P[X_{discreta}\geq x]=P[X_{discreta}>x-0.5]$$

$$P[X_{discreta}>x]=P[X_{discreta}x+0.5]$$

La corrección por continuidad se aplica especialmente en la aproximación normal, es decir mediante la distribución continua normal,  de las distribuciones discretas binomial (a través del teorema de De Moivre-Laplace) y de Poisson.

Frecuentemente se denonima la corrección por continuidad como corrección de Yates. Es una denonomiación equivocada ya que la corrección de Yates es solo un tipo concreto de corrección por continuidad que se aplica al cálculo del estadístico chi cuadrado en las tablas de contingencia.

La tipificación o estandarización es la operación que sustrae a cada valor de una variable cuantitativa la media de la distribución y divide el resultado entre la desviación típica. Los valores resultante se denominan valores z.  El objetivo es reducir los datos a una escala típica o estándar de modo que datos de diferentes distribuciones puedan ser comparados entre sí o puedan ser agregados de forma homogénea. En el caso de la distribución normal, la tipificacion transforma un valor de cualquier distribución normal a la distribución normal estándar N(0,1), de forma que se pueda calcular su probabilidad a través de la tabla estadística de dicha distribución estándar.

Los macrodatos son los datos que resultan de la agregación u otro tipo de operaciones con datos más simples, en último extremo de microdatos. Por ejemplo, las calificaciones medias por aula son macrodatos obtenidos a partir de las calificaciones individuales de los estudiantes.

Análisis descriptivo univariante

Las medidas de tendencia central o medidas de centralización son el conjunto de medidas estadísticas que indican el valor alrededor del cual se distribuye una variable estadística cuantitativa. Las medidas de tendencia tienen como objetivo proporcionar un valor que resuma o represente al conjunto de datos, de forma significativa. Por ejemplo, para el conjunto de datos 3-4-4-5-5-5-6-6-7, una medida de tendencia central intuitiva (que por otro lado coincide con las medidas de tendencia central típicas) sería el valor 5, ya que alrededor de este valor se distribuyen todos los datos. Las medidas de tendencia central más utilizadas son la media aritmética simple, la mediana y la moda. Sin embargo, existen otras muchas medidas de tendencia central, con propiedades y aplicaciones interesantes: la media ponderada da diferente peso a cada dato, la media geométrica es especialmente útil para calcular tasas medias de variación, la media cuadrática para determinar errores medios, y la media armónica para rendimientos medios. Otras medidas de tendencia central pueden resultar especialmente útiles para mitigar la influencia de los datos atípicos o pueden tener propiedades interesantes como estimadores de parámetros poblacionales.

El coeficiente de variación o desviación típica porcentual se calcula dividiendo la desviación típica entre la media aritmética simple:

$$CV=\frac{s_x}{\overline{x}}$$

Se trata de una medida de dispersión relativa; es decir, se utiliza para comparar dispersiones de diferentes conjuntos de datos. Ciertamente, la desviación típica debe interpretarse siempre conjuntamente con la media aritmética, y es que la desviación típica indica la desviación media de cada dato respecto a la media.

Por ejemplo, no es lo mismo una desviación de 2 unidades alrededor de una media de 10 unidades que la misma desviación alrededor de una media de 100 unidades: en el primer caso, CV=2/10=0.2=20% y en el segundo caso CV=2/100=0.02=2%, de modo que a pesar de ser las desviaciones iguales las dispersión relativa es mayor en el primer caso.

El recorrido, tambien llamado rango (en inglés, range), expresado generalmente con la letra R,  es la medida de dispersión más intuitiva y fácil de calcular. Se trata simplemente de la distancia o diferencia entre el dato mayor, el máximo de la distribución, y el dato menor. Así pues, cuanto mayor es el recorrido, mayor es la dispersión absoluta. Sin embargo, su facilidad de cálculo no compensa en cambio su sensibilidad a la existencia de datos atípicos. Basta con que aparezca un dato atípico para que el valor del recorrido cambien totalmente de magnitud. El recorrido es, por lotanto, una medida no robusta, con lo que su utilización ante la posible presencia de datos atípicos debe ser limitada. Como medida de dispersión relativa, se utiliza generalmente el recorrido dividido entre la media aritmética.

El recorrido se aplica frecuentemente en control de calidad para controlar la variabilidad de un proceso o característica de un producto, estableciendo alrededor de la media de los recorridos muestrales unos intervalos de tolerancia para los recorridos individuales, de forma que si el recorrido se sitúa fuera de esos límites, pueda concluirse con un nivel de certidumbre alto que la variabilidad del proceso ha aumentado de forma ostensible, afectando a la calidad del proceso o producto.

Análisi descriptivo bivariante

La tabla de contingencia es una tabla de doble entrada que se utiliza para resumir los datos correspondientes a dos variables cualitativas. Por ejemplo, una tabla de contingencia referida al sexo y modalidad de bachillerato realizada indicaría en celdas la frecuencia de hombre y mujeres para cada modalidad. Se denominan frecuencias marginales a los totales por filas y columnas.

Las tablas de contingencia son la base de partida para el análisis de la asociación entre variables (intensidad y dirección entre variables) y técnicas más complejas como el análisis de correspondencias, que permite representar en un gráfico bidimensional las categorías de las dos variables cualitativas, mostrando como próximas entre sí las categorías que están más relacionadas.

La asociación estadística es un término que se refiere en forma genérica a la relación estadística existente entre dos variables. Por ejemplo, si la probabilidad de contraer una determinada enfermedad es diferente según el sexo, se dice que existe asociación entre el sexo y dicha probabilidad. Correlación es otro término que se utiliza para denominar a la relación estadística entre variables, pero en sentido estricto se utiliza solo para variables cuantitativas y mas estrictamente aún para relaciones lineales entre variables cuantitativas. De esta forma, el término asociación se reserva, más concretamente, para denominar a cualquier tipo de relación estadística entre variables cualitativas.

La covarianza es un estadístico que indica la variabilidad conjunta de dos variables cuantitativas: cuando valores grandes en una de las variables se corresponden con valores grandes en la otra (y pequeños en una con pequeños en la otra), la covarianza es positiva; si por el contrario valores grandes en una variable se corresponden con valores pequeños en la otra la covarianza es negativa. Más concretamente, la covarianza es una medida de la correlación lineal entre variables: cuando al incrementar el valor de una variable, la otra variable ve asimismo incrementar sus valores, en general y aproximadamente de forma lineal, la covarianza será positiva; si al incrementar una variable, la otra en general ve disminuir sus valores, la covarianza es negativa.

La expresión nivel descriptivo hace referencia a una tipología de investigación en la que meramente se identifican y detallan las caracterísitcas de un fenómeno generalmente en una dimensión temporal y espacial concretas. El nivel descriptivo es superior como nivel de investigación al nivel exploratorio, pero inferior a los niveles explicativos y experimentales, en los que además de describir los fenómenos se persigue conocer las causas y factores que le afectan. En el campo  más concreto de la estadística, se dice que un estudio o investigación es descriptiva, cuando se limita a analizar los datos obtenidos, sin asumir ningún modelo previo para ellos ni tener en cuenta el error derivado de extrapolar o generalizar los resultados de los datos de una muestra a la población.

La escala de intervalo es una escala de medida que permite establecer la diferencia cuantitativa absoluta entre las medidas de dos obejtos o elementos. De este modo, es un escala de nivel superior a la escala nominal, que permite únicamente distinguir entre dos objetos, a la escala ordinal, que permite una ordenación entre objetos, pero sin establecer una diferencia cuantitativa entre ellos, pero a la vez de nivel inferior a la escala de razón, que permitiría establecer una diferencia relativa entre medidas. Una característica distintiva de la escala razón es que se construye sobre una escala de valores cuantitativos que permite valores negativos, mientras que en las escalas de razón sí que se establece un cero absoluto, de forma que no son posibles medidas negativas. De este modo, son escala de intervalo, entre otras, la temperatura en grados Celsius y  el incremento (o decremento) de la inflación; por ejemplo, entre una temperatura de 30 grados y otra de 10 grados hay una diferencia de 20 grados, pero no puede afirmarse (como si se podría afiamrar en escalas de razón) que la temperatura de 30 grados es 3 veces mayor que la temperatura de 10 grados.

Datos blandos son aquellos datos recogidos  a través de entrevistas, testimonios, encuestas de actitudes u otro tipo de fuente directa que tiene un marcado carácter subjetivo, y por tanto no tienen la fiabilidad que pueden tener datos recogidos a través de la observación directa.

Una variable dependiente es aquella variable que se relaciona como consecuencia o determinada por el valor que toma otra u otras variables llamadas variables independientes de acuerdo a una relación matemática, estadística o simplemente a nivel teórico que se haya establecido entre ambas. La relación entre una variable dependiente y una variable independiente puede limitarse a un nivel descriptivo, sin que exista necesariamente entre ambas una relación de causa-efecto directa.

Una definición operacional es la descripción concreta de las técnicas a utilizar para medir una característica de tipo abstracto, como puede ser una actitud, comportamiento o rasgo psicológico, estableciendo entre otros la escala de medida y los diferentes valores que tomará como variable. El proceso de análisis de un fenómeno hasta llegar a su definición operacional se denomina operacionalización. Se trata de un componente fundamental en toda investigación de tipo social, teniendo como objeto no dejar lugar a ningún tipo de ambigüedad en su medición y tratamiento.

La operacionalización es una fase preliminar en una investigación científica en el campo de las ciencias humanas y sociales que tiene como objetivo definir de forma exacta en todos sus extremos los conceptos y características abstractas, incluyendo sus límites temporales y espaciales, de modo que se posibilite su observación y medición directa. Para ello el primer paso cosiste en la reconstrucción teórica del concepto, para delimitarlo con exactitud según las definiciones planteadas por los expertos, para establecer a continuación sus diferentes dimensiones, desarrollar estas dimensiones, establecer una escala de medida para estas para despuñes agregarlas de forma adecuada. El resultado final consiste en la definición operacional del fenómeno.

La muestra invitada es el conjunto de individuos a los que se ha invitado a participar en una encuesta, entrevista o experimento. La muestra de individuos invitados que aceptan formalmente participar se denomina muestra aceptante.

Una muestra aceptante es el conjunto de individuos que han aceptado formalmente participar en una encuesta, entrevista o experimento, a partir de una muestra invitada. La muestra aceptante puedo coincidir o no con la muestra final de individuos.

El muestreo de aceptación es el conjunto de técnicas que tiene como objetivo determinar la aceptación o rechazo de un lote de material o de artículos recibidos en una empresa en base a una muestra proveniente del lote, en base a criterios probabilísticos y de coste económico y teniendo en cuenta los criterios de calidad establecidos. El rechazo del lote conlleva la devolución al proveedor, o en el caso de un muestreo interno a la empresa, su desecho. El muestreo de aceptación puede ser por atributos, cuando para cada elemento de la muestra se determina si cumple con las características cualitativas prefijadas, o por variables, cuando para elemento muestral se realiza una medición cuantitativa que refleje su calidad o cumplimiento con los estándares.

Pide un artículo

¿No encuentras el término que estás buscando? Cuéntanos que artículo estabas buscando y trataremos de redactarlo lo antes posible. ¡Te avisaremos cuando esté listo!