SS_Logo

Análisis bivariado con apoyo de Stata 18

Autor: Andrés Raúl Cruz Hernández / Portafolio: Quantitative / Vie. 07 de Jun de 2024

Transcripción de este video

00:00:30:17 Software Shop, la empresa líder en la implementación de herramientas analíticas y software especializado en Latinoamérica, les da la bienvenida a esta presentación. El día de hoy contamos con el acompañamiento de Andrés Cruz, Gerente de Portafolio, Riesgo y Finanzas en Software Shop. Profesional en Finanzas y Comercio Internacional de la Universidad de La Salle en Colombia. Magíster en Investigación en Administración con énfasis en Finanzas de la Universidad de los Andes.

00:01:14:20 Acreditado en la Certificación Internacional y en Administración de Riesgos Cuantitativos y QRM, y actualmente adelanta estudios de Doctorado en Administración en la Universidad de Los Andes. Bienvenidos. Muy buenos días entonces, para todos nuestros participantes. Bueno, buenas tardes. Dependiendo del lugar donde se encuentren. Como lo mencionaba Liza. ¿Eh, Nos gustaría saber ahí por medio del chat, eh? ¿Si nos cuentan de qué país nos están acompañando, de que organización o de que en el sector, por así decirlo, eh, nos están acompañando un poco como para para conocer, eh, el público que está presente acá siempre, pues el público es bastante diverso, eh?

00:01:39:15 ¿Nos acompañan de diferentes países y diferentes sectores industriales, por así decirlo, y pues bueno, eso es lo que lo que le da riqueza a estos eventos, pues también la la aplicación como tal, los los ejercicios que que mostramos acá, o por lo menos yo procuro que sea algo como muy transversal, no irme hacia algún sector en específico, sino algo como muy generalizado para que esto eh?

00:02:18:03 Pues eh se se pueda entender desde los diferentes sectores. Entonces bueno, por aquí nos eh, nos escribe Leticia desde Perú. Okay, perfecto. ¿Es usuaria de Stata dieciocho en el Hospital Bioestadística que que excelente eh? Desde Monclova, Coahuila, México. ¿Okay súper gracias por acompañarnos eh? Ilan San Antonio eh desde México. Ana también. ¿Jimena Bueno Perú hay una hinchada grande de de de México y Perú eh?

00:02:55:13 Jorge eh Perú también por acá, docente universitario y economista. Okay, perfecto. Bueno, pues muchísimas gracias por por sus respuestas, por acompañarnos acá. Pedro Perdón desde Colombia. ¿Muy bien eh? Entonces nada, pues quiero darles la bienvenida a a esta presentación y quiero hacer como una pequeña nota aquí a pie de página. ¿Y es que, eh, pues en esta serie de eventos gratuitos y semanales que organiza nosotros, pues eh, se procura abordar diferentes temas, eh?

00:03:22:19 ¿Pues usando esta parte los diferentes softwares a temas pues eh, diversos no? ¿Variados eh? Este pues nos corresponde análisis de variada es, eh, un, digamos, un primer paso dentro de la estadística descriptiva. Entonces, si ustedes son usuarios ya muy avanzados, por así decirlo, de estata, quizá esto sea más bien como un recordéis eh, eh, para, para, para que refresquen sus conocimientos.

00:03:50:08 Esta plática está diseñada, digamos, para para un nivel muy, muy básico, eh de usuarios de estata y y en en el mundo de la estadística. ¿Entonces quiero hacer esta salvedad porque pues se han trabajado temas más eh robustos por así decirlo, con con mayor eh dificultad no? Eh, Pero aquí pasamos ya a algo un poco más sencillito. ¿Entonces, habiendo dicho eso, pues vamos a continuar, eh?

00:04:15:03 Por lo general yo divido mis charlas en dos partes, una primera parte de unos quince minutos aproximadamente, eh teórica y pues ya el resto de la sesión nos vamos a la parte práctica en estata y resolvemos preguntas. ¿Las preguntas que ustedes vayan teniendo por favor me las van eh dejando? ¿Pues eh, por el chat y en la medida de lo posible en el desarrollo de la presentación, eh?

00:04:35:24 Pues iremos contestando. Nos dice Leticia que siempre se aprende algo nuevo y reforzar las bases siempre será un gran beneficio. Perfecto Leticia, Esa es la actitud. Muy bien. Okay, listo. Entonces el análisis de variado. ¿Qué es? ¿Para qué se utiliza? ¿Eh? ¿Cómo puedo entender yo eso? Bueno, pues partamos con su nombre. ¿No vi que quiere decir dos variado?

00:04:59:29 Pues dos, dos variables. Entonces yo les mencionaba este análisis variado. Es uno de los primeros pasos de los primeros dos pasos que yo eh realizo cuando voy a hacer análisis de información. Entonces ya después de eso empiezo yo a hacer análisis multivariado y y a trabajar cosas con más peso o más carne. Si se lo puede decir así, pero eso es lo primerito.

00:05:28:22 ¿Entonces, una pequeña definición, pues este análisis variado nos permite descubrir, por un lado, descubrir Oiga, hay algo no? Y por el otro lado, describir relaciones entre dos variables. Entonces esto es clave. Nos permite, por un lado, descubrir okay, identificar que hay algo y por el otro lado, describirlo. Vale. Lo que puede ser crucial para entender fenómenos y comportamientos en los datos.

00:05:53:05 ¿Pero también un una disculpa de antemano que tengo un poco de molestia en la garganta, eh? Entonces el análisis me daría de nuevo. Me permite descubrir y describir relaciones. Okay. ¿Por ejemplo, por aquí había alguien de bioestadística? No en estudios de salud. ¿Puede demostrar la relación entre el hábito de fumar y la incidencia de enfermedades cardíacas? Tengo dos variables.

00:06:18:09 ¿La incidencia de enfermedades cardíacas y el hábito de fumar por medio del análisis variado puedo yo entrar a identificar en una primera instancia si hay algún tipo de relación entre estas dos variables? ¿Será que si yo fumo más tengo más riesgo de sufrir alguna enfermedad cardíaca? De nuevo, es el primer paso, porque es que si yo aquí en este primer paso identifico que no hay ninguna relación, pues eso tiene repercusiones a futuro.

00:06:28:19 Entonces lo primero es okay, si existe algún tipo de relación y ya avanzamos en el análisis de esa relación.

00:07:02:01 Como ya lo mencioné, es el primer paso antes de aplicar modelos más complejos como regresiones multivariadas y demás. Es el primer pasito, pero muchas veces pues eh, claro, si somos ya expertos entre comillas en en estadística o en el uso de data, porque una vez nos mandamos a realizar regresiones lineales, logísticas, a correr modelos de ecuaciones estructurales, a hacer cosas así como más elaboradas, y nos saltamos esta primera parte, eh, Que pues no, no deja de de aportar algo al análisis de la información.

00:07:28:18 Proporcionan un resumen visual y descriptivo de los datos, haciendo más fácil la interpretación de patrones o tendencias. Okay, dice entonces ese es como el objetivo no grande del análisis de variables. Ya creo que queda claro por este lado. Y entonces aquí venimos a a este tema de tablas de contingencia que son pueden. Una tabla de contingencia también se conoce como una tabla cruzada o una tabla de frecuencia.

00:08:01:21 Entonces ojo, atención que son tres nombres diferentes a la misma tabla. Algunos lo pueden conocer como tabla de frecuencias, otro como tabla cruzada y otra persona como tablas de contingencia. Pero lo mismo. Y es una herramienta estadística que me permite eh observar la distribución de dos variables categóricas. Ojo, que aquí estoy hablando de dos variables categóricas. ¿Entonces quizá eh, si, si no tienen un concepto muy claro, perdón, los conceptos de variable eh?

00:08:25:01 ¿Continua discreta es este tipo de clasificación de variables? Pues sería bueno que y que lo revisaran. Aquí vamos a hablar en una. ¿En un primer momento de variables categóricas no variables que solo pueden tomar ciertos valores pueden ser cero, uno, dos, tres, cuatro, cinco, seis no? ¿Y eso tiene alguna representación, eh, no? En este primer momento no estamos hablando de variables continuas.

00:08:48:12 Ya vamos a ir hacia allá. Entonces, esta tabla de contingencia me permite observar la relación de dos variables categóricas. Ya vamos a hacer una, un vamos a irnos eh rápidamente a Stata en su forma básica, pues es una matriz que representa las frecuencias, los conteos de observaciones que pertenecen a cada combinación de categorías. ¿Porque aquí estamos hablando de variables categóricas, no?

00:09:13:04 ¿Entonces vamos a ver para qué me sirve eso? ¿Simplemente para hacer un resumen visual de las frecuencias y cuál es el comando en estata? Bueno, la idea es que si ustedes son usuarios de SATA y tienen instalado el software, pues haga algún conmigo entre nosotros. ¿Hagamos el ejercicio, vale? Entonces aquí está el comando. Les voy a pedir el favor.

00:09:46:04 Voy a detener aquí un momentito. Eh, Mayra Estata, voy a compartirles aquí en pantalla, eh estata. Acá está estatal y vamos a usar una base de datos que es pública, que es abierta. El comando es este de aquí, si es us auto, entonces si ustedes Voy a agrandar un poquito, eh, aquí la pantalla, la letra. Más bien, este es el comando Shift y auto.

00:10:16:17 Entonces es una. Es un una base de datos abierta de estata. ¿Eh? Pues que nos permite realizar múltiples ejercicios. Que que tiene la base de datos. Vamos a entender que tiene la base de datos para luego sí entrar a realizar los ejercicios y demás. Entonces eso si yo le doy el comando browse. ¿Si aquí abajo solo pueden ver Browse como buscador, buscar en inglés simplemente ver y solito eh?

00:10:42:03 Lo que hace es mostrarme en la base de datos como tal. Entonces tengo una base de datos. ¿Vamos a ver cuántas observaciones setenta y cuatro observaciones, setenta y cuatro registros en cada fila, no? O por filas, más bien tengo la marca. La marca de un vehículo Son marcas, no. Chevrolet Impala dos. Eh, Mercedes Bobcat. Bueno, son. Son marcas de carros.

00:11:08:05 ¿Eh? El precio en dólares de esos carros. Tenemos MPG, que significa millas por galón. ¿Cuántas millas recorre un vehículo por cada galón de gasolina? Millas por galón. Aquí. Ustedes lo pueden ver en el label. No. Aquí abajo, a la derecha, en sus pantallas hay una ventana. Eh, con las propiedades de las variables. Entonces. Pues sí, acá tenemos precio.

00:11:35:20 Y nos dice que es una variable de tipo eh, integer, eh, MPG o millas por galón, sino variable entera, por así decirlo. Esto de aquí rep setenta y ocho nos dice cuántas veces se reparó, se reparó, perdón, se reparó este vehículo en mil novecientos setenta y ocho. Entonces hagan de cuenta que esto es una foto de estos datos en mil novecientos setenta y ocho.

00:12:04:07 No, no, no afecta. Digamos, el año. No. El número de reparaciones que tuvo este carro en ese año. Entonces tres veces le repararon algo cero veces. Eh, acá tres veces. Bueno, en fin. ¿Get Rome, por ejemplo, acá nos dice cuál es el espacio que hay de la cabeza al techo del carro, no? El espacio promedio. ¿Entonces aquí nos dice Y que son dos punto cinco millas, eh?

00:12:29:26 ¿Bueno, el dron cuánto pesa? ¿Cuál es el peso de esos vehículos? ¿Cuál es el largo de ese vehículo? ¿Entonces tenemos por ahí diferentes, eh, diferentes características de, eh, los vehículos y al final, vean, tenemos una variable que es categórica también por acá, eh? Bueno, esta es una variable binaria. Solamente toma valores de cero o uno donde cero me indican.

00:12:53:13 ¿Vean aquí si ustedes miran en la parte superior, a pesar de que aquí me dice Domestic eh, ese es un una mascarilla que tiene no? Pero esto numéricamente cero doméstico quiere decir que el vehículo se produjo si se ensambló dentro de Estados Unidos. ¿Doméstico Touring es uno y quiere decir que es un vehículo que se ensambló afuera, no?

00:13:33:11 Entonces así podemos, eh, identificar o interpretar esta variable cero que es doméstico o uno que es extranjero. Entonces esos son los datos que tenemos. Perfecto. Voy a cerrar acá y entonces, eh, el comando por aquí. ¿No? Cierto. Me decía que era tabular var variable uno y variable dos, pero que tenían que ser variables categóricas. Entonces por un lado tenemos la variable foreing que toma valores de cero y uno y por el otro el número de reparaciones EH que tuvo en el año setenta y.

00:14:12:20 Entonces claro, las reparaciones son categóricas. ¿Yo no pude haber reparado tres punto setenta y ocho veces un carro, no? O no pude haber reparado cero coma cincuenta y siete veces. ¿Un carro? No. O lo paré una vez. Dos veces. Tres veces, Cuatro veces. Entonces son variables categóricas. Hasta ahí bien. Entonces ahí tenemos el primer comando tabular. Y de nuevo, esto lo que hace es que nos permite generar esta tabla de contingencias o tabla de frecuencias, por así decirlo, nos contrasta o no nos combina dos variables categóricas por uno.

00:14:44:23 Por un lado, perdón. ¿Aquí el número de reparaciones, una, dos, tres, cuatro, cinco no? Y por acá el origen del carro. Si es doméstico o extranjero, entonces les pregunta a ustedes ahí por el chat Por favor, respóndanme. ¿Encuentran algún tipo de datos interesantes en esto? ¿Algún tipo de correlaciones? ¿Identifican alguna característica relevante dentro de sus datos? ¿A ver quién se anima por ahí por el chat Para que?

00:15:19:24 Para que den algún tipo de respuesta. ¿Existe algún tipo de relación entre el origen de un carro y el número de reparaciones que tuvo ese ese carro? ¿Entonces ya por aquí nos dicen eh? Sheila Antonio nos dice los ensamblados domésticamente tuvieron más reparaciones. Jorge nos dice eh, más reparaciones tienen los doméstica. Exacto, cierto. Entonces vean que no, no estamos haciendo estadística avanzada ni nada de eso.

00:15:48:04 Simplemente una tabla de frecuencias. Pero ya con eso podemos empezar a hacernos una idea de qué nos vamos a encontrar, que nos estamos encontrando en los datos. Entonces, a pesar de que es algo muy sencillo, vean que tiene mucha utilidad. Martín nos dice los domésticos tienen las reparaciones. Exacto. ¿Entonces, claro, si nos vemos aquí, sí, si nos vamos acá tenemos que los domésticos de los carros domésticos, pues cuarenta y ocho eh?

00:16:23:02 O sea, fueron reparados cuarenta y ocho veces del total de los datos, cuarenta y ocho veces versus veintiuno de los carros domésticos. ¿No? Claro, aquí de pronto ustedes van a decir oiga, pero es que quizá vean si yo me voy otra vez a Browse. ¿Pues domésticos, eh, perdón, extranjeros, Hay menos carros, eh? Extranjeros tenemos, eh, doce, doce carros y por acá domésticos tenemos, eh, bueno, setenta y cuatro menos doce no, setenta y dos claro.

00:16:54:17 Ah, bueno, sesenta y nueve porque hay unos datos que están vacíos. ¿Bueno, entonces primero hay que tener en cuenta eso, no? Que, que, que la muestra y demás está un poco desbalanceada, por así decirlo. ¿Y eso nos puede afectar, no? ¿Hay que tenerlo presente, pero de momento vamos a dejar eso por ahí en el aire, no? Entonces. Bueno, tenemos nuestra tabla de, ehh, contingencias que de nuevo, lo que nos permite observar es eso, una herramienta para ver cómo se están distribuyendo los datos entre dos variables categóricas.

00:17:22:07 Es una matriz. Lo que me muestra son estos conteos. Perfecto y me permite visualizar las frecuencias. ¿Por ejemplo aquí ehh el carro doméstico pues ehh, el promedio, la mayor parte más bien el grueso, pues fueron tres reparaciones, no? Tres reparaciones. ¿Aquí entonces hay que entrar a observar o sería bueno entrar a observar cuáles fueron esos carros, por ejemplo?

00:17:50:21 ¿Será que es algo como una una marca? ¿Entonces de nuevo, todo esto ya nos permite empezar a plantearnos preguntas, hipótesis, a hacer algún tipo de de análisis a la información, no? Este dato es importantísimo veintisiete reparaciones tres veces. Entonces, de nuevo esto lo que nos va preparando es para eso, no para para empezar a resolver o responder preguntas.

00:18:23:11 Listo, Seguimos por acá, frecuencias y porcentajes. ¿Entonces podemos hablar de frecuencias absolutas o de frecuencias relativas, vale? Ehh. Entonces por un lado puedo contar y comparar proporciones. Claro, ya es más fácil, eh, hacer comparación entre datos por medio de porcentajes o de proporciones. El comando en estata es parecido. Vean tabular el nombre de la variable uno, el nombre de la variable dos y le agrego yo aquí este comando cero.

00:19:00:18 ¿Listo? Sí. Entonces vamos a hacerlo de nuevo. ¿Eso para qué es? Para calcular frecuencias y porcentajes. Entonces el comando es Vean Charly Fourier variable uno Separaciones Variable dos cero. Entonces me dice Eh, tenemos las frecuencias por acá. Entonces del cien por ciento de los datos tenemos que, por ejemplo aquí treinta y nueve por ciento. Lo que yo les decía, aquí teníamos solamente el dato, veintisiete reparaciones de sesenta y nueve, veintisiete reparaciones de sesenta y nueve.

00:19:31:18 Aquí lo que obtengo ya son esas, ehh, esos porcentajes, esas frecuencias, esos ehh, esas proporciones, no, esas proporciones. ¿Entonces ya es más fácil compararlo en términos de proporciones, eh? ¿Hugo nos preguntan y los carros que no fueron reparados en ese año? ¿Eh? Esa es una muy buena pregunta. Vean que habría que entrar de nuevo a revisar qué pasó acá.

00:20:00:12 Vean tres y aquí tenemos un punto. ¿Esto habría que mirar o o representa un cero o fue que este este vehículo no proporcionó información? ¿Es decir, es un missing, un valor faltante, cierto? ¿Eh, Porque pues yo podría entrar a modificar eso como cero cero son dos datos, tres cuatro datos aproximadamente cinco datos que están en cero y tendría yo que entonces entrar a validar primero o eso es un cero?

00:20:25:19 ¿Este punto me representa un cero o me representa un un valor faltante? ¿Vale que no lo sabemos para para este ejemplo, en este caso puntual eh, no lo sabemos, de acuerdo? Lo que sí sabemos es que entonces pues se podría calcular la proporción, no sé, cinco sobre, eh, setenta y dos. ¿Ahí está el número o el porcentaje de variables, eh?

00:21:06:07 O de datos vacíos. Cinco Sobre perdón, algunos ya yo puedo al está pasando con estata no me deja modificar. Aumenta. Otra vez voy a compartir pantalla ahora sí Display cinco sobre setenta y dos. Ahí está el seis por ciento, más o menos seis punto nueve por ciento de los datos. ¿Eh? Hay algo con ese seis punto nueve por ciento de los datos o es missing o es, eh, el porcentaje de carros que no se repara.

00:21:37:19 ¿Vale, eh? Okay, bueno, entonces seguimos aquí, ya puedo yo. Entonces con esta tabla, pues bueno, identificar que el treinta y nueve por ciento de los carros domésticos se repararon tres veces en ese año. Bueno, eso es bastante tres veces. Ok. Lo que podemos ver es también que, eh, los vehículos extranjeros empiezan a repararse después de el tercer año, o bien después del tercer año.

00:22:03:04 El primer año. No necesito reparación en segundo año no necesito reparación. Aquí ya empieza a necesitar reparación. Cierto. Entonces eso también. De nuevo. ¿Nos puede decir algo? Es decir, nos sirve para plantearnos hipótesis. ¿Es que acaso los carros extranjeros son de mejor calidad, por ejemplo? ¿Y a partir de eso podría yo empezar a hacer mi estudio, mi investigación y análisis?

00:22:32:02 ¿Cierto? De ahí la importancia de nuevo de hacer este tipo de análisis multivariado. Es algo muy sencillo pero que de de primera mano nos puede empezar o nos puede servir para que vayamos formulando preguntas, vayamos cuestionando lo los datos que tenemos y demás. ¿Listo? Okay. Ahora vamos a hablar rápidamente de esta prueba de chi cuadrado. ¿Para que nos sirve?

00:23:08:26 Bueno, su propósito es determinar si existe una asociación significativa entre dos variables categóricas significativas desde el punto de vista estadístico. No, porque una cosa es lo que yo pueda sentir. ¿Oiga, no, es que yo creo que sí, que eso tiene alguna relación, si eso puede ser significativo para mí, pero desde el punto de vista estadístico, para eso está esta prueba, para ver si estadísticamente hay alguna asociación significativa entre las dos variables categóricas nuestras hipótesis nula y nuestra nuestra hipótesis nula y alternativa, eh?

00:23:55:08 La HGO h o H0 La hipótesis nula. Las variables son independientes. Por otro lado, las variables no son independientes, no. ¿Listo Comando en estata tabulado otra vez Variable uno, Variable dos y ahora sí dos El chi cuadrado El tipo de la prueba valor P, Es decir, cómo puedo yo analizar los resultados de eso? Si el pi válido Este valor probabilístico es menor al nivel de error que por lo general es EH cero punto cero cinco No, si mi nivel de confianza es del noventa y cinco por ciento, pues el alfa o el error va a ser del cinco por ciento, aunque pues este este nivel de error eh lo lo puede asociar, digamos cada quien

00:24:17:03 según su criterio. ¿No? Porque muchas veces nos casamos con la idea de que el nivel de confianza es siempre el noventa y cinco por ciento, no dependiendo del estudio que yo estoy realizando. Si yo estoy por ejemplo en el área de salud, muy posiblemente ese nivel de confianza va a ser más alto, noventa y nueve por ciento y el nivel de error entonces sería el uno por ciento cero punto cero uno.

00:24:49:29 Entonces ojo, mi punto es ese valor P va a depender de el usuario o el investigador o la persona que este analizar los datos que pues normalmente se ha estandarizado en un noventa y cinco por ciento. ¿Okay, pero eso pues puede cambiar, no? Entonces, eh, vamos, vamos a estata y hacemos esta prueba estadística para ver si hay alguna, eh, evidencia estadística que nos diga que sí hay algún tipo de, eh, dependencia entre los datos.

00:25:16:27 ¿Entonces el comando es tabulado setenta y ocho en variable uno, variable dos coma Si cuadrado esa coma en el comando me sirve a mí para decirle oiga, aparte de la tabla, cierto, porque le estoy diciendo creen una tabla aparte de esta tabla? ¿Hágame otra cosita entonces en este caso chi cuadrado en este caso era el para qué? Para que me sacara los porcentajes en el primer paso, Pues era solo cierto.

00:25:43:08 Entonces vean que hemos sido de un mismo comando tabla y variable, una variable dos, pero le hemos ido agregando cositas. ¿Listo, eh? Por aquí hay una pregunta. ¿Dice el uno, dos, tres, cuatro, cinco es cuántas veces se reparó en un mismo año o en qué año de fabricación necesito reparación? Ah, bueno, Leticia, muchas gracias por tu pregunta. Eh, esta variable récord de reparaciones en este año.

00:26:06:10 Ahí está. ¿Cuántas veces se reparó el vehículo en mil novecientos setenta y ocho? Entonces, en un solo año se reparó una vez. Dos veces. Tres veces, Cuatro veces. Cinco veces. Eso en un mismo año. Por eso les decía yo, Es como si tú tomar una fotografía de el número de reparaciones y de todos estos datos en mil novecientos setenta y ocho.

00:26:30:12 Vale. Espero haber respondido tu pregunta. Eh, Rosa nos pregunta cómo podría realizar un análisis variado entre una variable de conteo y una variable continua. Ya vamos para allá. ¿Listo? Entonces. Eh, Chi cuadrado. Aquí está. Cierto. Qué nos. ¿Qué nos saca de diferente? Pues esto es lo mismo. No. El número de frecuencias. Acá lo tenemos. Eso lo la tablita.

00:27:01:06 Y acá abajo nos dice Chi cuadrada. ¿Aquí ese es nuestro, no? Este. Y espero que si están viendo las diapositivas, vivan nuestro PI de cero. Entonces nos dice que si el PI es menor a cero punto cero cinco, que es nuestro caso, se rechaza la hipótesis nula. ¿Qué quiere decir? Que, eh. ¿Existe algún tipo de asociación significativa? Vale.

00:27:32:07 Si existe algún tipo de asociación, no nos está diciendo nada más. Ojo, no nos está diciendo nada más. Nos está diciendo si existe algún tipo de asociación entre, eh, el número de reparaciones de un vehículo y su naturaleza. Si es doméstico o extranjero. Perfecto, Eso es lo que nos dice la chi cuadrado. ¿Como es menor, cierto? Entonces indica que sí hay una relación, pero no nos indica cuál es su fuerza, su intensidad, su dirección.

00:28:00:17 ¿No nos está diciendo nada más, Solamente nos dice si hay alguna, eh, dependencia lineal otra vez, como el PIB es menor, cierto? Aquí tenemos esta probabilidad es cero, cero es menor a cero punto cero cinco Cierto rechazo la hipótesis nula, es decir, acepto, podríamos decirlo y si hay estadísticos aquí, pues me me van a disculpar. ¿Acepto la hipótesis alternativa, no?

00:28:28:25 ¿Cuál es la hipótesis alternativa? Las variables no son independientes, es decir, esta no se mueve solita de esta, sino que si hay algún movimiento por ahí, eh, con el conjunto listo, ahí va. Prueba Chi cuadrado. ¿Existe otra prueba que es la de declarar esa prueba, eh? Nos permite cuantificar la fuerza de la asociación entre dos variables categóricas. Vale.

00:28:58:00 Entre dos variables categóricas. De nuevo. Entonces esto puede tomar, eh. Este rango va a ir de cero a uno. ¿Nos va a decir cuál es la fuerza de esa relación? ¿Qué tanto se relaciona el comando en estata? Aquí está. Bueno, cero quiere decir que no hay ningún tipo de asociación. Uno quiere decir que hay una asociación perfecta. Es decir, que si, eh una se mueve, la otra se mueve en la misma proporción.

00:29:22:07 Esa es una asociación perfecta. Si una se mueve, la otra se mueve en la misma proporción. Cero quiere decir que no hay ninguna asociación y nuestro comando entonces es este Vale, eh, por aquí. ¿Cómo puedo interpretar los valores? ¿Bueno, valores cercanos a cero de nuevo quiere decir que no hay una asociación? Es una asociación de valores cercanos a uno.

00:29:45:05 Quiere decir que hay una asociación fuerte. Ya vimos, según la prueba chi cuadrado, que si hay una asociación, pero no sabemos si es una asociación fuerte o una asociación débil, entonces eh. Por eso pues vamos paso a paso. Chi Cuadrado nos dice si hay alguna asociación ya. Esa nos dice si hay una asociación y qué tan fuerte es.

00:30:06:19 Esa es un complemento a chi cuadrado, la que vimos anteriormente. No se utiliza después de encontrar una asociación significativa. De acuerdo. Liz. ¿Eh? Okay, entonces vamos a Estatal y vamos a correr nuestro comando.

00:30:38:01 Es tabulado y reparaciones Comma B. Ahí el sarcoma de acá. Está bien. Listo. Entonces Chi cuadrado nos decía Si hay una asociación y Cramer nos dice la. La asociación, digamos, es del cero punto sesenta y dos, o sea sesenta y dos por ciento, casi sesenta y tres por ciento, que cuando una se mueve, la otra se mueve en la misma, eh fuerza en la misma dirección, por así decirlo, en la misma proporción.

00:31:01:02 Se podría entender si como algún tipo de correlación, como una medida de correlación, que ya vamos hacia allá, como una medida de correlación. ¿Entonces de nuevo, el primer paso es si cuadrado para ver si existe alguna relación o no, si aquí eso me dijera que no existe una relación y yo hago luego la prueba de de de Cramer, pues esta fuerza o esta intensidad debería ser muy bajita cero no?

00:31:22:23 O muy cercana a cero. ¿Por qué lo veíamos aquí? Valores cercanos a uno. Es una asociación fuerte. Bueno, aquí es casi un sesenta y tres por ciento. No es bueno. Es. Es algo. Es algo importante. Por ahí. ¿Listo, Eh? ¿Continuamos entonces? Vamos a ver si me siento un poco colgado de tiempo. ¿Ya, ya, ahorita vamos con las preguntas, eh?

00:31:54:11 A través de este comando, chavos late de nuevo. ¿Yo puedo o o pedirles que eh en la misma tabla por aquí no me saque eh? En una misma columna Mensaje Los resultados de Chi cuadrado y B. La clave. ¿Entonces de nuevo, para ya poder, digamos, condensar toda esa información, aquí tenemos chi cuadrado, no? Y acá tenemos la B de Cramer, que pues es exactamente los mismos valores que encontré anteriormente, solo que lo había hecho por separado.

00:32:29:21 Aquí con este comando eh digo que en una sola columna véanlo. Aquí está, me saque esos dos datos chi cuadrado y BD y trabajo perfecto. Listo. ¿Entonces, eh, qué otra cosa puedo hacer yo con estas variables categóricas? Ojo que seguimos en en en variables categóricas ya pasamos a las variables continuas. Puedo crear una gráfica de barras, una gráfica de barras que me saque el conteo, por así decirlo, la frecuencia de EH por un lado y por el otro número de repeticiones.

00:33:00:13 Entonces eso es lo que le estoy diciendo acá me las está montando las dos. Bueno, aquí yo tengo ya que entrar a darle algún tipo de de formato a esta gráfica. ¿No? Me dice uno, dos, tres, cuatro, cinco y me va a comparar, Me permite comparar eh, los domésticos, las reparaciones con los extranjeros. Pero entonces de nuevo aquí yo tengo que entrar a darle un formato, por ejemplo, que sea de color rojo por ejemplo, y doméstico sea de color azul y ya puedo yo verlo separado, por ejemplo aquí eh, cuatro veces.

00:33:26:06 ¿Vean que tanto domésticos como extranjeros se repararon cuatro veces en ese año, no? ¿Si yo me voy por aquí, eh? Ah, bueno, perdón, cuatro veces al mismo número de veces. En este caso fueron nueve veces nueve meses. Entonces por eso aquí aclaro en en el eje yo tengo diez, entonces aquí van a ser nueve, nueve meses. Se repararon los carros domésticos y los extranjeros en este año cuatro veces.

00:33:56:03 Perdón, eh, cuatro reparaciones, nueve vehículos, nueve, nueve carros. Perdón otra vez. Creo que los confundí. Creo que los confundí con la lectura. Eh, Nueve carros, nueve vehículos, tanto domésticos como extranjeros. Se repararon cuatro veces en ese año. ¿Entonces, con esta gráfica de barras, puedo yo entrar a hacer esta comparación visual que estoy graficando? Pues esta, esta tabla, esta esta tabla aquí de distribuciones de frecuencias, las estoy graficando así.

00:34:32:17 Si yo cambio el orden de EH de las variables ni las va a separar, por ejemplo por acá. Entonces me muestra por un lado doméstico y por el otro ahí está. Entonces es entrar por ahí a jugar con, con, con la gráfica. Lo que les digo es darle formato, no es el objetivo de esta, de esta charla. Los invito de paso a que vayan a la página de Software Show, vean las grabaciones de los eventos anteriores que se han hecho, donde se ha trabajado, eh, Sobre cómo sacar gráficas, cómo obtener gráficas, darle formato, modificar las gráficas de estata.

00:34:54:09 Entonces, si están interesados en esto, los invito a que vayan por ahí a la página de software. ¿Yo por ahí en el chat nos están compartiendo el enlace eh, para que hagan eso Entonces eh, voy a dar las preguntas rápidamente eh? ¿Cuál sería la diferencia con un coeficiente de correlación de Pearson? Ya vamos a hablar sobre correlación de Pearson, que es para las variables categóricas.

00:35:13:15 ¿AM Eh? Posteriormente nos compartirán la presentación. ¿Liliana ustedes me pueden escribir a mi correo que se los voy a dejar al final de la presentación eh solicitando las diapositivas o las puede enviar? La base de datos es abierta, ustedes lo pueden descargar con el comando que les mencioné. ¿Es posible graficar de manera que cada categoría salga de color diferente?

00:35:36:01 ¿Sí, José, es posible, eh? Pero pues nos tomaría más tiempo y no lo vamos a hacer de momento. ¿Eso vamos a continuar porque es que todavía nos quedan bastante camino y ya el tiempo se nos está acabando, eh? Correlación de Pearson. ¿Entonces por ahí ya alguien se estaba adelantando, nos estaba diciendo bueno y y qué diferencia hay con la correlación de Pearson que ustedes son?

00:36:08:14 ¿Bueno, también se conoce como coeficiente de correlación de Pearson, no? Mide la fuerza y la dirección de una relación lineal entre dos variables continuas. Vale, entonces este chi cuadrado que nos identifica. ¿Si hay alguna relación entre variables categóricas y esta B de Cramer que me indica la intensidad, por así decirlo, la fuerza viene a ser similar, no? Similar a este correlación de Pearson, solo que Pearson es para variables continuas y este chi cuadrado de Cramer para variables categórica.

00:36:31:19 Entonces por eso lo traigo aquí a colación. Correlación de Pearson puede ir desde menos uno a uno, donde uno quiere decir que hay una relación lineal, positiva, perfecta. Pero quiero decir que no hay ningún tipo de relación y menos uno que hay una relación lineal, negativa, perfecta, positiva, perfecta. ¿Si esta variable sube, esta también sube, eh? Relación lineal negativa perfecta.

00:36:52:15 Si esta variable sube, está aquí, baja porque es una relación lineal negativa. No, no es lo mismo. ¿Es decir, a veces se confunde no? Que que si una variable baja, la otra también baja. ¿Entonces tienen una relación lineal negativa no? ¿Si una variable es baja y la otra baja, pues hay una relación lineal que es directa por así decirlo no?

00:37:18:27 Si, si una sube y la otra baja es indirecta o inversa. ¿Bueno, supuestos cuando puedo yo o cuando debería utilizar esta correlación de Pearson? ¿Bueno, eh, si se utiliza bajo el supuesto de que las variables siguen una distribución normal, Eh? ¿Que? Ah, bueno, esto es importante, Pearson Solo nos permiten identificar relaciones lineales si existe algún tipo de relación lineal.

00:37:47:27 Si hay relaciones no lineales, no lo podemos identificar con piso. Aquí las variables deben ser continuas. Y también está el supuesto de homocedasticidad que la varianza de la varianza entre esa relación es constante a través de el tiempo. Homocedasticidad. Entonces vámonos otra vez estata. Eh, antes de correr. Pearson Bueno, vamos a Ya, ya hablamos un poco de variables categóricas.

00:38:21:11 Ahora quiero que pasemos a variables continuas. ¿Entonces, eh? Si bien yo puedo sacar este tipo de tablas también con con variables continuas, lo puedo hacer. Por ejemplo, Eh, Muéstreme tabular entre millas por galón. ¿Se me ocurre y weight no? Claro, yo puedo sacar una tabla de frecuencias, pero vean que como ya no es categórica me saca. ¿Pues si yo tengo cien datos millas por galón, millas por galón, puede ir de cero a cien, no?

00:38:47:02 Entonces por eso es que me salen aquí tantos datos por acá, según las millas por galón y según peso. Entonces para variables continuas ya no es tan útil. ¿Esta, esta, estas tablas No? Pues porque no me dicen mucho. Lo que sí va a ser útil va a ser, por ejemplo, realizar gráficos de dispersión para estas variables continuas y me permite a mí, a través de los gráficos, observar ese tipo de relaciones.

00:39:07:17 Entonces voy a decirle, en vez de que me saque una tabla que no tiene mucho sentido como esta que me acabo de sacar. Vean. O sea, estata lo puede hacer. No es que no lo haga, lo puede hacer, pero es que no tiene sentido. Le voy a decir Scatter, aquí está. Es una gráfica de dispersión entre millas por galón y peso.

00:39:53:25 ¿Qué quiero ver? ¿Yo? No, no vi la gráfica aquí. Me pasé rápido. No, no vi la gráfica. ¿Pero qué relación piensan ustedes que podría existir entre millas por galón y el peso ahí por el chat? Escriban. ¿Podría existir algún tipo de relación entre millas por galón y el peso? ¿De existir una relación sería positiva? ¿Sería negativa, eh? No sé qué se les ocurre a ustedes y antes de ver sus respuestas de nuevo, o sea, todo esto que estamos haciendo de análisis muy variado, pues me permite a mí ir entendiendo la dinámica de mis datos y precisamente me permite plantearme preguntas que puedo yo entrar a responder o a desarrollar más adelante.

00:40:20:14 Entonces de ahí de nuevo, por eso es que es importante el análisis de variables. Entonces nos dice Ana Lozada, hay una relación inversa. Leticia nos dice negativa Martín una relación negativa a menor peso del automóvil, mayor velocidad del mismo, nos dice Leticia. Entre mayor peso, más consumo. Una relación inversa nos dicen entre más peso del carro, menos millas va a tener por galón.

00:40:55:06 Listo, Ahí tenemos muchas hipótesis, muchas respuestas. ¿No? Entonces con este análisis puedo entrar yo de nuevo a realizar algún tipo de análisis. Ahora sí, vámonos a la gráfica. ¿Qué nos dice esta gráfica? Bueno. No, yo puedo trazar una especie de recta así. No me lo estoy inventando. Quizá más abajo. Vamos a ver si la puedo bajar. Voy a borrarla y si yo quisiera trazar una recta, quizás sería algo así.

00:41:29:23 No. ¿Qué me dice eso? Que a mayor peso. Cierto. A ver, vámonos. Por aquí. ¿Eh? Aquí a mayor peso. Vean esto. Viene bajando. Aquí tengo carros que pesan. No sé. Casi cinco mil libras. No. Y vean las millas por galón. ¿Qué hacen? Muy bajitas. Mientras que los carros que son más livianos vean por aquí. Dos mil dos mil libras hacen hasta cuarenta millas por galón.

00:42:00:05 Entonces, si hay una relación entre millas por galón y el peso. Qué tipo de relaciones es una relación negativa. Entre más alto sea el peso, menos millas por galón. Cierto. Entonces es un primer análisis que puedo hacer yo aquí Simplemente a nivel gráfico. Ahora, eh. ¿Lo que yo puedo hacer es pedirle ya no que yo, sea quien sea que esa, esa esa recta, no?

00:42:31:04 Sino, eh, que sea estata. ¿Entonces el comando sería tú güey, una gráfica, eh? Digamos que dos gráficas en uno, por así decirlo. Para que entendamos el comando tuve de dos formas. Tuve dos caminos, dos formas. Primero sáqueme una gráfica de dispersión entre millas por galón y el peso es esto que acabamos de hacer. Y segundo, agregue una línea línea fit hace como una especie de regresión lineal y me saca la ESA.

00:43:04:24 Esa línea fit, esa línea que se ajuste a los datos. Vale. Aquí yo no estoy dándole comando de que me corra una regresión ni nada de eso, sino que internamente él calcula la recta que se ajusta a esos datos. ¿Vale? Ahí está el comando. Y acá lo tenemos. ¿Entonces nos saca un gráfico ya con esa recta que yo había trazado a ojímetro, ya esa recta la la, la calcula estata y pues bueno, me permite validar efectivamente que hay una relación negativa eh?

00:43:47:10 Con estos datos. Listo. Ahí agregamos esa línea de tendencia, por así decir. ¿Listo? Eh, ahora sí vamos a a calcular el la correlación por aquí. ¿Existen varios comandos, no? Yo puedo decirle muéstreme core así de correlación entre millas por galón y peso. Ahí, esa correlación. Yo puedo decirle. Muéstreme. Pide un que otro comando para Pearson. Correlación. Aquí automáticamente me saca Pearson.

00:44:21:04 Entonces vean que es exactamente lo mismo. ¿Listo? Eh, Bueno, no, De hecho, este último no nos el acá. Entonces yo les dije. ¿Hay una relación negativa? No. ¿Qué sucedería aquí? ¿Que visualmente, gráficamente una relación negativa? ¿Bueno, con qué fuerza? ¿Con qué intensidad es esta correlación? Pues aquí está menos ochenta por ciento o menos. Punto ocho menos cero punto ocho que si lo paso a porcentajes, pues sería una relación negativa del ochenta por ciento.

00:44:50:27 Es decir, que en un ochenta por ciento de las situaciones donde el carro es más pesado, en un ochenta por ciento de esas situaciones va a hacer menos millas por galón. ¿Pero van a haber casos donde eh, el carro es pesado por ejemplo, pero igual hace un buen número de millas, pues en comparación a otros no? ¿Eh? ¿Entonces por ejemplo, este aquí pesa casi cuatro mil, un poquito más de cuatro mil libras, cierto?

00:45:12:00 Pero las millas por galón. ¿Qué hace? Son casi las mismas de un carro que pesa. No sé, dos mil ochocientas si lo están viendo, pero espero ser muy claro en esto que estoy diciendo. Entonces esa correlación yo la puedo interpretar así en en el ochenta por ciento de las veces pasa eso. Pero vean por aquí, voy a trazar esta recta.

00:45:42:27 ¿Hay diferentes carros, cierto? Diferentes carros que tienen diferentes pesos. Otra vez voy a sacar unas rectas por acá. No. Ese carrito de aquí pesa. No sé. Dos mil cien Este aquí pesa dos mil setecientos. Este pesa dos mil ochocientos. Este pesa cuatro mil trescientos. Me estoy inventando. Entonces ahí es en esos, en esos casos que la. ¿Por eso la correlación es de cien por ciento, no?

00:46:11:25 Hay unos casos que independiente de su peso, hacen el mismo millaje por galón. Eso es. Hay que tener claridad un poco en en cómo interpreto yo ese esa correlación de peso. ¿Listo, eh? Es entonces en cuanto a, eh, correlación de peso. Ahora vamos a hablar de otra correlación. Ya para terminar, eh, que es importante mencionar qué es la correlación de Stillman.

00:46:38:20 Es otro, otra medida de correlación También se conoce como eh, coeficiente correlación de rangos. Spearman. Esta mide la fuerza y la dirección de una relación monotónica entre dos variables. Esta es una medida no paramétrica. Digamos que la principal diferencia radica en cómo yo calculo estas correlación de Pearson y la de Spearman tiene otras diferencias. Este, por ejemplo. ¿Ya, eh?

00:47:08:04 Ah, bueno, también perdón, va desde menos uno a uno. Relación monotónica positiva, perfecta, negativa, perfecta. Pero los supuestos de esto, es decir, cuando utilizo yo, Spearman, por ejemplo, cuando yo ya no estoy asumiendo que los datos siguen una distribución normal. Vale. Para variables con distribuciones normales, entonces podría utilizar Spearman. Y lo otro es que esa relación no tiene que ser lineal.

00:47:32:11 Pearson me identifica Relaciones lineales sí o sí. ¿Tiene que existir algún tipo de relación lineal, eh? Spearman Perdón, Pues no tiene que ser lineal. Es decir, también me va a permitir, eh, encontrar relaciones no lineales, pero deben ser relaciones monotónica. ¿Qué es eso? Que a medida que una variable aumenta, la otra variable también aumenta o disminuye de una manera consistente.

00:48:04:27 Entonces, como esa relación monotónica aquí las variables pueden ser continuas o ordinales. Entonces aquí es como un resumen de lo que les acabo de mostrar Cuándo utilizar adecuado para cuando utilizar Pearson, cuando utilizar Spearman. ¿Algunas limitaciones que tiene, no? Entonces Pearson sirve Si yo quiero, eh, ver por acá relaciones lineales. ¿Cierto? ¿Eh? Pero Pearson es supremamente sensible a valores atípicos, a outliers.

00:48:37:22 ¿Entonces, si yo tengo un dato de Blair Pearson, esa eso me lo va a integrar y me aumentar la correlación este de Spearman, eh? ¿Digamos que compensa un poco esos salarios, eh? ¿Para mí son variables continuas que siguen una distribución normal aquí y ya no necesariamente tiene que seguir una distribución normal o tener una relación lineal, eh? ¿Ah, perdón, eh aquí que son relaciones lineales, eh?

00:49:03:04 ¿Spearman Más bien relaciones no lineales o monotónica es por aquí, eh? Variables continuas que siguen una distribución normal en este caso. ¿Pues ya les había dicho Spearman no necesariamente tienen que seguir una limitación, eh? Una distribución normal. ¿Pues esa es una de las limitaciones de Pearson, eh? ¿Y lo que les decía de Pearson supersensible a a valores atípicos o outliers, eh?

00:49:43:25 Bueno, entonces vamos a irnos a a esta esta otra vez para calcular ya esta correlación de de Spearman. Perdón, por acá. Entonces yo les había dicho para Pearson puedo sacar correlación así solito o puedo decirle aquí para Spearman, pues es simplemente Spearman y pongo las correlación eh, las variables millas por galón y el peso. Entonces me dice son setenta y siete observaciones, eh, Spearman, Este sería el coeficiente de correlación de Spearman.

00:50:09:13 Vean que similar no es así. Acá hay una correlación negativa del ochenta por ciento. Si más me dice que hay una correlación negativa del ochenta y cinco por ciento, entonces es similar. Solamente que aquí ya estoy yo. ¿Asumiendo que los datos no siguen una distribución normal, tenemos que tiene otras implicaciones, eh? ¿Y nos de hecho nos hace una prueba oiga, millas por galón y tres o son independientes?

00:50:36:27 Entonces rechazo la hipótesis nula de que son independientes, es decir, si hay algún tipo de independencia. ¿Esto también es otra forma de validar ese ese tipo de relaciones, eh? Vi varias. De acuerdo, entonces ahí tenemos Spearman, eh, Pearson. Vemos que con Spearman también se hace una prueba de hipótesis acá desde aquí Sub cero H0. La hipótesis nula otra vez.

00:51:02:19 ¿Cuál es la hipótesis nula de la prueba que está haciendo de millas por galón y peso? Son independientes. Como esto es menor al cinco por ciento, rechazo esa hipótesis nula, entonces no son independientes. ¿Es decir, hay algún tipo de dependencia entre los datos? Vale. ¿Listo? Eso. Eso sería. Entonces, eh, eh, el tema de la presentación. Ese análisis univariado de nuevo.

00:51:28:02 ¿Pues tenemos solamente una hora para para abordar muchísimos temas, pero es el panorama global, es la idea de de lo que está detrás de ese análisis variado, eh? ¿Por qué es importante hacerlo? ¿Qué herramientas puedo utilizar para hacer el análisis variado? ¿Teoría de BI variable o bi variado EH? Tablas de frecuencias de distribución de porcentajes. Gráficos de barras.

00:52:01:11 Gráficos de dispersión. Correlaciones. Correlaciones de, por ejemplo. Eh, Spearman, Pearson. Todas esas son las herramientas que tenemos al alcance para, eh, realizar este tipo de análisis. Bueno, eh. Entonces vamos a mientras tanto. Bueno, con eso cierro mi presentación. Eh, Quedarían cinco minutos para preguntas y respuestas. ¿Eh? De paso aprovecho para invitarlos a que diligenciar la encuesta que acaba de salir aquí en pantalla.

00:52:31:08 ¿Estas encuestas nos sirven a nosotros para evaluar, pues, eh, cuáles son sus temas de interés? ¿Si ustedes quieren que se trabaje en algún tema en específico, pues pueden dejarlo por ahí, eh? Bueno, son son bastante útiles, bastante eh necesarias también estas encuestas. ¿Entonces les pido el favor de de diligenciar, eh? ¿Martín nos pregunta puede colocarse la correlación en el gráfico, eh?

00:52:51:16 ¿Supongo que en este gráfico, cierto? Que nos ponga ahí la la correlación es una muy buena pregunta. ¿Estoy muy seguro que sí, que si es posible eh? Pero en este momento no sabría cómo hacerlo, eh, eh. Es decir, estoy muy seguro que que es posible al gráfico ponerle, eh. ¿Cuál es esa correlación que existe entre los datos, eh?

00:53:10:11 Pero en ese momento no, no sabría cómo hacerlo. Me disculpo. Nos dice Eh, Leticia, que es una relación monotónica. ¿Ah, okay, perfecto, eh? Vamos a devolvernos un poquito por acá. ¿Cierto? Que era donde lo mencionaba.

00:53:14:14 ¿Eh?

00:53:18:25 Esto por acá.

00:53:46:26 Acá Monotónica No es una relación monotónica. Es que a medida que una variable aumenta, la otra variable también tiene que aumentar o disminuir. Pues si es una relación positiva, entonces si una aumenta, la otra aumenta de una manera consistente. Eso es como como una definición pues bastante sencilla que si uno aumenta la otra aumenta también de una manera consistente, o si una aumenta y la otra disminuye, pues que sea de una manera consistente.

00:54:07:03 ¿Eso es, eh, a groso modo la monótona unicidad, no? ¿Porque usted puede pasar que uno aumente y la otra empiece a aumentar, pero de un momento a otro la otra se dispare o la otra cambie de sentido, entonces ya no es monotónica, cierto? O lo contrario uno aumenta, la otra disminuye, pero en algún momento esta empieza a cambiar.

00:54:37:24 Ese tipo de de correlación, entonces no es monotónica, tiene que aumentar o disminuir de manera consistente. ¿Vale? ¿Hacia hacia allá va la monotonía, eh? Nos preguntan por acá esta. ¿Esta clase de diapositivas están disponibles eh? ¿Pero y para las demás personas? Esto quedará grabado. ¿Esto está siendo grabado y monitoreado y ustedes podrán acceder al video ahí en la EH, en el chat les están pasando el enlace eh?

00:55:04:05 La próxima semana pueden eh ya acceder a este video y piensan es esperarlo les con relación lineal escriban para relaciones no lineales porque usaste los mismos datos para ambas correlaciones. Listo. ¿Es decir, por qué usar eh Spearman? ¿Y porque usar Pearson con los mismos datos? ¿Por ejemplo? Una de las razones es que precisamente lo que tú estás diciendo, eh, es, eh, Pearson.

00:55:29:14 Me permite a mí identificar, eh, correlaciones solamente lineales. Entonces es importante utilizar las dos. ¿Por qué? Porque, por ejemplo, eh, Pearson. ¿Me puede decir que no? No encontró ninguna correlación, Pearson. Pero me está diciendo que no encontró ninguna correlación lineal. Entonces yo puedo usar Spearman. Y si yo me quedo con Tyson y digo Ah, no, no existe ninguna correlación.

00:55:51:12 No existe ninguna correlación. Digamos que estaría haciendo algún tipo de análisis sesgado. ¿Por qué? ¿Porque puedo usar Spearman y darme cuenta que si existe algún tipo de correlación que no necesariamente es lineal, sino que es una correlación no lineal, por ejemplo, entonces digamos que por eso utilice las dos que cuál de usar, que si la una o la otra?

00:56:14:08 Bueno, eso depende de de de la naturaleza de los datos, de los supuestos que yo estoy asumiendo. Si los datos son normales y no son normales, si se distribuyen como una normal, entonces eso ya entra a a cambiar un poco por ahí. ¿Listo eh? Que otra pregunta. Muchas gracias Leticia, con mucho gusto. ¿Gracias a ustedes por, eh, asistir por participar eh?

00:56:37:12 Diana nos dice por la forma de distribución de las variables Pearson es para variables que se distribuyen normal lineal. Como dice el profe Spearman, es una forma diferente de la normal, Algo así pues complementa muy bien la respuesta de Diana. ¿El comentario de Diana complementa lo que les estaba eh mencionando ya eh? Nos dice Liliana. Excelente explicación sencilla para un tema tan complejo construido.

00:57:03:23 Se entiende todo como si fuese. ¿Muchas gracias Liliana, eh, por tus comentarios, eh? ¿Sí, pues efectivamente la la idea es hacer cosas sencillas o volverlo algo más sencillo, no? ¿Algo más práctico y entender el porque de las cosas no? ¿Porque muchas veces estamos en estadística y sabemos de estas cosas, pero no, pues yo sé que si quiero ver alguna correlación utilizo Pearson y sale Bueno, pero por qué?

00:57:23:01 ¿Y por qué más bien no usar Spearman? Oiga, no es que yo tengo los datos y una vez me lanzo a hacer regresiones lineales, por ejemplo Oiga, no, pues pare un momentico y analice un poco los datos, Mire qué encuentra, qué observa. Qué curioso. ¡Ay, qué diferente, ay! Pregúntese, hágase preguntas y luego ya empiece a desarrollar el análisis de los datos.

00:57:59:27 Esto es un primer paso que, aunque puede ser muy básico, muy sencillo, es muy importante y muy potente para desarrollar la. La investigación o el análisis de los datos. ¿Vale? Bueno, pues eh, creo que no hay más preguntas. ¿Si no hay más preguntas, eh? ¿Y respetan respetando el tiempo de ustedes, eh? ¿Aquí muy puntualmente, eh? ¿Les agradezco por su asistencia, por su participación a Voy a dejarles, eh, mi correo, dejarles mi correo por si tienen alguna pregunta eh?

00:58:22:27 Me pueden escribir por ahí o me pueden buscar en LinkedIn también por aquí está Andrés Punto Cruz arroba un shop punto com. Listo ahí en el chat que los dejen Andrés punto. Cruzarlos punto com. Ahí me pueden escribir, me pueden contactar o me buscan por el LinkedIn. ¿No hay ningún problema, eh? Nos dice Javier. Gracias. Perfecta la presentación.

00:58:45:01 Al grano. Bueno, gracias por sus comentarios Ana también. ¿Cómo sabemos si la variable tiene una distribución normal? Bueno, ahí ya, aquí ya hay que entrar a realizar pruebas de normalidad. ¿Existen algunas pruebas estadísticas que nos permiten evaluar si los datos se distribuyen eh? ¿Normalmente eh? Entonces ahí ya hay que entrar a realizar ese tipo de pruebas, Pues no alcanzamos a hacerlo aquí por tiempo.

00:59:11:28 ¿Me disculpo, eh? La invitación a que estén pendientes del calendario de software, de las actividades, de los temas y pues como siempre se inscriban, participen. Esto es gratuito para ustedes, por ustedes entonces, o sea que sigan conectados con nuestras redes sociales también. Y bueno, sin más les agradezco de nuevo por su asistencia, su tiempo, su disposición, su participación y nos veremos en en una próxima oportunidad.

00:59:34:03 Muy bien, que tengan un excelente resto de semana. Buen fin de semana. Hasta luego. Para mayor información respecto al software o en temas relacionados, no dude en contactarnos a través del correo electrónico, entrenamientos arroba, software, guion shop punto com o visitar nuestra página web Triple W punto Software Guion Shop Puntocom.

Análisis bivariado con apoyo de Stata 18


En este espacio abordaremos el análisis bivariado, crucial en la exploración de datos porque proporciona una primera visión de cómo dos variables se relacionan entre sí, de forma que se establecen las bases para análisis más avanzados y complejos. Por lo anterior, al identificar sus relaciones y asociaciones significativas, los analistas pueden tomar decisiones más informadas y desarrollar modelos predictivos de manera más efectiva.

Etiquetas relacionadas

  • Análisis de datos
  • Datos
  • Finanzas

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar