### Introducción a R y R-Commander R es un paquete estadístico y lenguaje de programación, software libre con licencia GNU. R-Commander es una interfaz gráfica (GUI) que simplifica su manejo. #### Entorno Básico de R Al ejecutar R, aparecen la "R Console" (modo consola) y la ventana de "R Commander". En R-Commander encontramos: - **Instrucciones (R-script)** - **Resultados (salida)** - **Mensajes** ### Introducción de Datos Los datos se introducen a través de `Datos → Nuevo conjunto de datos`. Después de nombrarlo, aparece una hoja de cálculo para introducir variables y datos. Para moverte entre casillas, usa los cursores, **no la tecla Enter ni Tabulador para evitar añadir filas/columnas inesperadas**. Para guardar: `Datos → Conjunto de datos activo → Guardar el conjunto de datos activos`. Dale un nombre con extensión `.RData` y selecciona un directorio. #### Trabajar con un archivo ya existente Para acceder a ficheros más amplios: - `Datos → Cargar conjunto de datos` - `Datos → Importar datos` - `Datos → Conjunto de datos en paquetes` **Observación:** Los datos denotados por `NA` son datos no disponibles o perdidos. ### Estadística Descriptiva de una Variable #### Tablas de Frecuencias y Gráficos - **Tablas de Frecuencias:** `Estadísticos → Resúmenes → Distribución de frecuencias`. Construye tablas de frecuencias y porcentajes para una o varias variables (ej. región y clima). - **Gráficos de Barras y Sectores:** - `Gráficas → Gráfica de barras` - `Gráficas → Gráfica de sectores` Ambos aparecen en la ventana "R-Graphics". - **Variables Numéricas a Cualitativas:** Para tablas o gráficos de variables numéricas, conviértelas a cualitativas: `Datos → Modificar variables del conjunto de datos activo → Convertir variable numérica en factor`. Marca "Utilizar números para los niveles del factor" y guarda con otro nombre. #### Agrupación de Variables Cuando una variable discreta tiene muchos valores, es necesario agruparla en intervalos para tablas de frecuencias o gráficos adecuados (ej. calorías). El gráfico adecuado en este caso es el **histograma**. **Ejemplo de Agrupación:** 1. Crear Histograma por defecto: `Gráficas → Histograma`. 2. Para modificar la agrupación (ej. intervalos de 500 desde 1500 a 4000): - En la ventana "Instrucciones (R-Script)", cambiar `breaks="Sturges"` por `breaks=c(1500,2000,2500,3000,3500,4000)`. - Seleccionar la instrucción modificada y pulsar "Ejecutar". 3. Para obtener una tabla de frecuencias agrupada: `Datos → Modificar variables del conjunto de datos activo → Recodificar variables`. Elige la variable (ej. calorías) y asigna un nuevo nombre (ej. ingcalr). - En "Introducir directrices de recodificación", usar `extremo izquierdo:extremo derecho=punto medio` (ej. `1500:2000=1750`). **Observación:** R considera el primer intervalo cerrado y el resto abiertos por la izquierda y cerrados por la derecha. #### Medidas Descriptivas `Estadísticos → Resúmenes → Conjunto de datos activo` muestra un resumen que incluye: - **Variables Cuantitativas:** mínimo, primer cuartil, mediana, media, tercer cuartil, máximo y número de datos perdidos. - **Variables Cualitativas:** nombres de modalidades con su frecuencia absoluta y número de datos perdidos. Para medidas descriptivas de una variable numérica: `Estadísticos → Resúmenes → Resúmenes numéricos`. Selecciona las variables y medidas (estadísticos) de interés. **Observación:** La desviación típica y varianza de R corresponden a la cuasidesviación típica y cuasivarianza. - **Media:** Promedio de los datos. - **Mediana:** Valor central que divide los datos en dos mitades. - **Moda:** Valor más frecuente (para variables cuantitativas, es mejor agrupar en intervalos). - **Cuartiles:** Dividen los datos en cuatro partes iguales (Q1, Q2=Mediana, Q3). - **Percentiles:** Valores que dividen los datos en 100 partes iguales (ej. Percentil 30 = Cuantil 0.3). - **Varianza:** Medida de dispersión ($\sigma^2$). - **Desviación Típica:** Raíz cuadrada de la varianza ($\sigma$). - **Coeficiente de Variación:** $\frac{\sigma}{\mu}$. Indica la representatividad de la media. - **Asimetría:** Indica la forma de la distribución. Positiva si sesgada a la derecha, negativa si sesgada a la izquierda. - **Apuntamiento (Curtosis):** Indica qué tan "picuda" es la distribución. #### Diagrama de Caja (y Bigotes) `Gráficas → Diagrama de caja`. Muestra la distribución de los datos, cuartiles y valores atípicos. ### Estadística Descriptiva de Varias Variables #### Coeficiente de Correlación Lineal y Gráfica XY - **Coeficiente de Correlación Lineal (Pearson):** `Estadísticos → Resúmenes → Matriz de correlaciones`. - **Gráfica XY (Nube de Puntos):** `Gráficas → Gráfica XY`. - Variable explicativa en eje X, variable explicada en eje Y. - Se puede obtener para diferentes modalidades de una variable cualitativa (Condiciones o Grupos). - `Gráficas → Diagrama de dispersión` permite añadir la recta de regresión. #### Resúmenes Numéricos e Histogramas por Grupos `Estadísticos → Resúmenes → Resúmenes numéricos`. Permite calcular medidas descriptivas para variables numéricas según las modalidades de una variable cualitativa (`Resumir por grupos`). Para comparar histogramas por grupos: `Gráficas → Histograma`. Seleccionar la variable numérica y la variable cualitativa para agrupar. #### Tabla de Estadísticas y Gráfica de las Medias `Estadísticos → Resúmenes → Tabla de estadísticas`. Calcula medidas descriptivas para variables numéricas según una o más variables cualitativas (factores). `Gráficas → Gráfica de las medias`. Representa gráficamente la información de la tabla de estadísticas, útil para variables con muchos valores. #### Tabla de Contingencia `Estadísticos → Tablas de contingencia → Tabla de doble entrada`. Para estudiar conjuntamente dos o más variables cualitativas. - Seleccionar variables de fila y columna. - Opciones: `Sin porcentajes`, `Porcentajes totales`, `Porcentajes por columnas`, `Porcentajes por filas`. ### Distribuciones de Variables Aleatorias En `Distribuciones → Distribuciones continuas/Distribuciones discretas` se encuentran opciones para trabajar con diferentes modelos de distribuciones. #### Opciones Comunes para Modelos Discretos - **Cuantiles:** `P(X ≤ ck) ≥ k`. - **Probabilidades Acumuladas:** `P(X ≤ x)` (cola izquierda) o `P(X > x)` (cola derecha). - **Probabilidades:** Calcula la probabilidad de valores específicos. - **Gráfica de la Distribución:** Representa la función de probabilidad o de distribución. - **Muestra de una Distribución:** Genera valores aleatorios. #### Opciones Comunes para Modelos Continuos - **Cuantiles:** `P(X ck) = k` (cola derecha). - **Probabilidades Acumuladas:** `P(X x)` (cola derecha). - **Gráfica de la Distribución:** Representa la función de densidad o de distribución. - **Muestra de una Distribución:** Genera valores aleatorios. **Ejercicios Típicos:** - **Binomial:** Probabilidad de `k` éxitos en `n` intentos. - **Poisson:** Número de eventos en un intervalo de tiempo/espacio. - **Exponencial:** Tiempo hasta que ocurre un evento. - **Normal:** Distribución continua simétrica en forma de campana. ### Intervalos de Confianza y Contrastes de Hipótesis (Poblaciones Normales) Los Intervalos de Confianza (I.C.) y los Contrastes de Hipótesis (C.H.) son herramientas estadísticas relacionadas. #### Regla para C.H. Se rechaza la hipótesis nula $H_0$ si el p-valor obtenido es menor o igual que $\alpha$ (nivel de significación). #### C.H. e I.C. para la media y varianza de una población normal - **Media:** `Estadísticos → Medias → Test t para una muestra`. - **Varianza:** `Estadísticos → Varianzas → Test de varianza para una muestra`. **Ejemplo de Contraste Unilateral (Media):** $H_0: \mu = \mu_0$ $H_1: \mu $\alpha$, no hay evidencia para rechazar $H_0$ (varianzas iguales). **2. Contraste de Diferencia de Medias (varianzas iguales):** $H_0: \mu_X = \mu_Y$ (o $\mu_X - \mu_Y = 0$) $H_1: \mu_X > \mu_Y$ (o $\mu_X - \mu_Y > 0$) - `Estadísticos → Medias → Test t para muestras independientes`. - En "Grupos", seleccionar la variable de agrupación. - En "Variable explicada", seleccionar la variable de estudio. - Elegir hipótesis alternativa (ej. "Diferencia >0"). - Marcar "Sí, asumir varianzas iguales". #### Análisis de la Varianza (ANOVA) de un Factor `Estadísticos → Medias → ANOVA de un factor`. Analiza la varianza para una variable dependiente cuantitativa respecto a una variable factor. - Seleccionar el factor en "Grupos" y la variable dependiente en "Variable explicada". - **Comparaciones dos a dos:** Para comparar las técnicas si se rechaza $H_0$. **Interpretación de la tabla ANOVA:** - Contraste de la igualdad de puntuaciones medias en los distintos niveles del factor. - $H_0: \mu_1 = \mu_2 = ... = \mu_k$ - $H_1: \mu_i \neq \mu_j$ para algún par $i,j$ - Si el p-valor ### Comprobación de las Hipótesis de los Modelos Utilizados Las pruebas estadísticas asumen aleatoriedad y normalidad de los datos. #### Pruebas de Aleatoriedad - **Test de Rachas:** `Estadísticos → Test no paramétricos → Test de aleatoriedad`. - $H_0$: La muestra es aleatoria. - $H_1$: La muestra no es aleatoria. #### Pruebas de Normalidad - **Test de Shapiro-Wilk:** Para muestras pequeñas ( ### Generar Informes Para generar un informe de los ejercicios: `Fichero → Guardar el fichero R Markdown como...`. - Guardar el archivo `.Rmd`. - En la pestaña "R-Markdown", pulsar "Generar informe". - Se pueden añadir comentarios en la ventana "R-Markdown".