SS_Logo

Análisis de Varianza con apoyo de Stata 17

Autor: Andrés Raúl Cruz Hernández / Portafolio: Quantitative / Jue. 25 de Ago de 2022

Transcripción de este video

00:00:45:18 Somos un equipo autogestionado, responsable, proactivo y autónomo, con gran compromiso social, aportando el pensamiento científico y el desarrollo latinoamericano, promoviendo el uso de software para investigación en todas las áreas del conocimiento. Generamos contenido de alta calidad teniendo en cuenta las distintas necesidades del mercado. Realizamos actividades gratuitas constantemente. Abordamos temáticas vigentes, aplicaciones especializadas y elementos metodológicos que te permiten interactuar y generar redes para la difusión de tus proyectos.

00:00:55:17 Contamos con servicio de asesoría, consultoría y acompañamiento personalizado, certificaciones internacionales, entrenamientos especializados y talleres prácticos.

00:01:10:22 Nuestro principal objetivo es promover el uso de tecnología en el campo investigativo, generando un impacto significativo en la región y de esta forma contribuir a la creación de comunidad para compartir conocimiento.

00:01:56:02 Te invitamos a ser parte de este gran equipo Software Schott. Visita nuestra página web y conoce nuestros servicios Software Shop. La empresa líder en la implementación de herramientas analíticas y software especializado en Latinoamérica, les da la bienvenida a esta presentación. Esta sesión contará con el acompañamiento de Andrés Cruz, instructor del portafolio cuantitativo en Software Shop Profesionales, Finanzas y Comercio Internacional de la Universidad de La Salle Magister en Investigación de Administración y Finanzas de la Universidad de los Andes acreditado con la Certificación Internacional en Administración de Riesgos Cuantitativo C QRM, otorgada por el Instituto EPE.

00:02:25:19 Actualmente adelanta estudios de Doctorado en Administración en la Universidad de los Andes en Colombia. Bienvenidos nuevamente les doy la bienvenida como lo acabo de mencionar y pues ya ustedes tenían la información del evento en esta sesión. En este webcast vamos a trabajar sobre el análisis de varianza. También se conoce como Anova utilizando el software de Stata en su versión número 17.

00:02:53:08 Bueno, pues antes de lanzarnos Isabella y no con la aplicación de de esta herramienta de Nova antes de entrar a hacer un ejercicio en Stata, la idea es que primero miremos un poco qué es el ANOVA y para qué sirve y para qué lo utilizamos, que me indican. De acuerdo, entonces, ya teniendo claridad en esto, pues vamos ahora sí a la parte práctica.

00:03:22:06 Entonces digamos que el objetivo de Anova es inicialmente equivalente a realizar una prueba de diferencia de medias. De acuerdo, cuando yo tengo dos grupos muestrales de lo que sea, los grupos muestrales. Yo quisiera saber si el promedio de subgrupos es es igual en ambas muestras o si es diferente. Ya más adelante lo voy a eternizar con un ejemplo.

00:03:52:12 Entonces Anova, como si el análisis de varianza lo que hace es dividir la varianza total de las muestras, no? Y digamos que busca explicar por un lado si la varianza de esa muestra se debe a algo específico de la muestra o si es a causa de algún componente aleatorio, algún componente desconocido, o si es solamente aleatoriedad de la muestra, por así decirlo.

00:04:23:01 De nuevo, si la varianza es o corresponde algún tratamiento o alguna característica específica de esa muestra o si por el otro lado, pues es algo aleatorio, se quiere entonces identificar si existen diferencias sistemáticas para una variable, teniendo en cuenta categorías o clasificaciones o algunas características, y se quiere ver si las diferencias pues están o no están asociadas a la selección fortuita de observaciones.

00:04:56:18 Es decir, si es algo del algo random, algo aleatorio, sí, si está sí, si esa diferencia se debe a ese componente aleatorio o si es algo de las muestras como tal. Era lo que les mencioné anteriormente. Vale. Entonces en Anova y la varianza total, pues bueno, esto ya ya lo había mencionado, no? Creo que está repetido acá em varianza o de nuevo algo aleatorio o algo propio de la muestra, alguna característica o tratamiento de la muestra.

00:05:38:06 Y cuando se examine entonces una sola variable y en una sola dimensión, entonces A no es equivalente a una prueba tipo test. De acuerdo, la tee student por allá. Acuérdense de sus cursos de estadística y Econometría. Entonces se realizó una prueba test de diferencia de medias sobre esa variable de acuerdo e y de nuevo esa variable es examina, pues, con respecto a un tratamiento o a una característica, si no es si de pronto no logran aterrizar este concepto, no se preocupen que de nuevo, pues con el ejercicio ya no aterrizamos en el análisis de varianza.

00:06:06:12 Entonces consiste en dividir la varianza total en componente aleatorio de nuevo para cada uno de los de las muestras y un componente atribuible a la asignación entre entre los grupos. Entonces hay diferencia entre esta muestra y esta en sus promedios? De ser así, es por algo propio de la muestra o es por cuestiones aleatorias? No sé si por allá ya logran entonces quizá aterrizar un poco más este concepto.

00:06:37:23 Si la varianza entonces de dos grupos no es diferente o no es diferente de la varianza total, entonces tenemos la capacidad de decir que entre características o tratamiento, pues no hay diferencia, no que es igual, eso es la idea de una u otra forma no es diferente al ejercicio de regresión. Y de hecho cuando uno hace un ejercicio de regresión en data obtiene de una u otra forma intrínsecamente los resultados de una no-A.

00:07:27:12 Ahorita de nuevo en esta vamos a mover esto y de acuerdo. El análisis de regresión se presenta bueno, esto es uno, aquí los datos. Aquí tengo yo un ejemplo sencillo tengo yo los resultados de unas observaciones. Estos son datos observados y acá tengo un tratamiento. Acuérdense que yo les decía que para ver si hay diferencia entre tratamientos o características, de acuerdo, entonces por ejemplo, una característica yo puedo tener codificado, tener codificado acá la característica de alguna muestra por ejemplo, puedo codificar cero si es hombre y uno si es mujer, entonces si tengo un grupo de hombres acá, cuáles son los resultados de por ejemplo aquí?

00:08:02:07 Y si tengo un grupo de mujeres, cuáles son los resultados de esto? Entonces estas son características. Si yo quiero ver siempre esas entre esos grupos de hombres y mujeres y la varianza promedio, por así decirlo, es la misma o es diferente y es algo aleatorio o es algo de los grupos? Es en cuanto a características, por ejemplo, o yo puedo tener también un tratamiento, no sé, por darles un ejemplo, vacunas no?

00:08:41:15 Uno si se le aplicó vacuna, probando, probando, testeando estas vacunas, uno si se le aplicó vacuna o si recibió algún tipo de tratamiento médico en un tratamiento no cero, si no, entonces uno si recibió tratamiento, cuál fue el resultado? Cero Si no recibió el tratamiento, cuál fue el resultado? Esta llegue acá. Uno si recibió el tratamiento por el resultado y así sucesivamente de nuevo separo los grupos entre los que recibieron o no el tratamiento y miro pues si hay diferencias en los promedios de esos resultados.

00:09:12:13 Y de nuevo sí, si esas diferencias son por cuestiones aleatorias de la muestra o si corresponde precisamente a esa esos tratamientos o a esas características entre los grupos. Vale. Y entonces, bueno, eso es lo que acabo de mencionar. Se tienen variables que representan un resultado, hay variables que representan un tratamiento, es lo que tenemos acá. El ejercicio solo se va a estudiar con tratamientos o características discretas y esto es importante.

00:09:52:21 Yo necesito o para realizar una nueva, esas características o esos tratamientos deben de ser variables discretas, variables aleatorias, discretas, no? Entonces de nuevo volvemos a nuestro curso de estadística de econometría, eh? Y acordémonos que existen variables aleatorias continuas y variables aleatorias discretas. Las discretas son aquellas que toman valores cerrados, por así decirlo. 0123. No sé el número de hijos, por ejemplo, variables aleatorias continuas toman valores que se les pueden poner decimales, por así decirlo.

00:10:40:15 La estatura, el peso, la edad de una u otra forma, las discretas valores cerrados. De acuerdo, entonces para poder hacer Anova esas características o esos tratamientos de nuevo deben ser variables aleatorias, discretas. Ni eso se le puso la vacuna o no se le puso? Es hombre o mujer? Tiene un hermano, dos hermanos, tres hermanos, tiene cinco hijos, tiene cero hijos, es decir, variables que son discretas, que no se quiere saber entonces si en promedio las observaciones que pertenecen al tratamiento este, al primer tratamiento, por ejemplo, difieren en el resultado de que era lo que les había dicho.

00:11:17:08 Yo puedo realizar una prueba de hipótesis, no? Y la hipótesis es esta. Por ejemplo, si la hipótesis nula es que no hay diferencias en los promedios, en las medias de los grupos de acuerdo, no hay diferencias entre la hipótesis nula, es decir, que vienen a ser iguales de una u otra forma. Y eso y la hipótesis alternativa es que si hay diferencia en los promedios de los grupos, de acuerdo, entonces tengan esto presente, porque ya en unos minutos, pues cuando hagamos el ejercicio vamos a necesitar recordar cuáles eran esas hipótesis.

00:11:55:03 No, la hipótesis nula es que no hay diferencias. La hipótesis alternativa o alterna es que si hay diferencias en los promedios de los grupos, las e. Bueno, veo por acá preguntas a ver rápidamente. Bueno, Erica me está colaborando en responder algunas preguntas. Gracias. Erica. Eh, Rodrigo pregunta en la noche se realiza con la descomposición de la varianza. Sí, y ya lo.

00:12:21:14 Lo voy a mencionar en la siguiente diapositiva. Esa varianza se descompone en la parte ya lo vamos a ver en los errores, en la suma del cuadrado de los errores, en la suma del cuadrado. El efecto ya lo vamos a ver. Y preguntan, Katherine, que si con la nueva se puede realizar una evaluación del impacto, es decir, si un programa social, un tratamiento ha tenido efecto sobre una población, es correcto.

00:12:52:08 Eric Perdón, Katherine. Katherine Responder tu pregunta. Yo puedo ver si a un grupo de personas a las cuales yo les apliqué, por así decirlo, un programa social, cuáles fueron sus resultados versus un grupo de personas a los cuales no le apliqué ese programa social? Si, entonces con eso yo pude identificar si el programa social está teniendo algún tipo de efecto con el ANOVA o si es esa diferencia en los resultados.

00:13:21:03 Es algo aleatorio o si de verdad, efectivamente gracias a ese tratamiento puedo observar alguna diferencia en los resultados. Pregunta Juan Qué diferencia hay entre una prueba a diferencia de medias con el Anova? Bueno, por eso digo que de principio viene a ser lo mismo. Voy a obtener lo mismo. De acuerdo? Entre el ANOVA de principio no hay diferencia de medias.

00:13:46:14 De acuerdo, más adelante vuelvo con las preguntas. Entonces, enano en el análisis no? Pues consiste en dividir la varianza en dos componentes, que era una de las preguntas que me hacían ahorita. No hay un componente atribuible a la asignación de tratamientos o a la asignación de estas características y un componente atribuible a un factor externo. De nuevo algo aleatorio, algo fuera de la muestra.

00:14:33:22 Yo voy a dividir esa varianza en esos dos componentes. El primero, el primero entonces es llamado suma, el cuadrado del efecto o en ingles suma que defecto que cuando yo corro una regresión muchas veces yo encuentro este dato, el SS, y esto también se conoce como la varianza entre grupos o una variabilidad between entre los grupos de acuerdo y el segundo componente entonces es el llamado suma del cuadrado de los errores que también voy a encontrar que son of Score Errors o la varianza al interior del grupo de acuerdo varianza al interior del grupo.

00:15:05:12 Entonces la varianza yo la divide en estos dos, la variabilidad entre los grupos y la variabilidad entre K, entre los mismos grupos. Si me hago entender uno es que tan diferentes son los dos grupos, ese es el bitcoin y otro cuál es la diferencia? Que hay, la varianza que hay en cada uno de estos grupos. Listo? Bueno, y se les prometo que esta ya es la.

00:15:40:01 La última diapositiva. Un poco teórica. Ya vamos a pasar a la parte práctica y perdón, veo que están escribiendo en el chat, pero voy a continuar con esto y más adelante abro un espacio para las preguntas. Entonces, la prueba de significancia oye, para saber si estadísticamente yo puedo afirmar que hay diferencias entre la prueba de significancia, entonces es era la que les presenté una diapositiva anterior.

00:16:09:21 Es bajo la hipótesis nula. La varianza al interior del grupo Waiting debería ser igual a la varianza entre los grupos. Para eso voy a utilizar el estadístico F. De acuerdo, entonces yo corro una no-A y ese Anova me arroja un estadístico F a groso modo, sin ir al detalle y sin ser tan específicos. Sí, porque acá yo sé si hay estadísticos, acá me van a decir ojo, pero es que tiene que ser más preciso.

00:16:41:00 A grosso modo, si el estadístico F es muy bajo, por lo general menor a dos, por lo general digo yo menor a dos. Si 1.96 y según el nivel de confianza, el nivel de significancia según el alpha, según la tabla por allá distribuciones. Entiendo eso, pero digamos que a grosso modo, si el es edípico, perdón si el estadístico F es muy bajo, por lo general menos de dos, entonces no se rechaza la hipótesis nula de que las medias son iguales en cada grupo.

00:17:09:07 Eso, ojo, el estadístico es si es menor a dos, no rechazo. Si el estadístico F es alto, mayor A2 Se rechaza la hipótesis nula de que las medias son iguales en cada grupo. Si yo rechazo eso que estoy diciendo, que si hay diferencia en las medias de cada de cada grupo, si sí lo ven, si yo rechazo pues que las medias son iguales, quiere decir que son diferentes, no?

00:17:39:22 Es decir, hay diferencia en las medias y los promedios de cada uno de los grupos. De acuerdo, entonces tengan presente la prueba de hipótesis acá. Y pues esto que les digo de el estadístico F Vale, listo, con base en eso, entonces ya, ya les decía yo que era la última diapositiva. Esa es como 1/1 contextual de fundamentación. Aquí en pantalla tiene mi correo por si tienen preguntas o hay preguntas que quizá por tiempo se quedan sin responder.

00:18:18:02 Entonces acá lo tienen en tres punto cruz software punto com. Con base en eso, ya habiendo revisado un poco la parte teórica de lo que es el ANOVA y lo que me puede indicar ayudar a descubrir, pues ahora sí vamos a pasar al ejercicio en esta. Vale, entonces por aquí deberían estar viendo en mí esta alta en un momento arreglo por acá, les vale?

00:18:49:19 Entonces aquí deberían estar viendo. Gracias Vanesa por confirmar y. Y entonces tenemos esta data en la versión 17. Cierto? Lo primero que voy a hacer pues es importar una base de datos que yo tengo por acá, una base de datos que es una encuesta estudiantil, es una encuesta que se le realiza AA1 grupo de estudiantes universitarios. Vamos a ver rápidamente qué es lo que tengo yo por acá.

00:19:26:10 Son estudiantes universitarios de pregrado, entonces se les pregunta cuál es su aspiración salarial? Cuál es el número de veces que ha viajado en avión? Quizá la calificación promedio en la calificación en el primer semestre de una materia en específico? Bueno, acá hay calificaciones, no probabilidad. Calculo calificaciones. Cuántas veces al mes realizan deporte? Quizá en la edad? Bueno, es información, digamos descriptiva de una población.

00:19:52:06 Cuál es la estatura de esa población? Cuál es el género? Si son hombres y son mujeres. Y aquí lo que hace es clasificar uno, si es mujer, vean cero, si es hombre, si lo están viendo acá mujer y hombre, recuerden que otra cosa el número de hermanos, cuántos hermanos tiene y por otro lado el puntaje de likes y eso.

00:20:37:00 Entonces a groso modo esa es la base de datos que yo tengo acá, listo. Entonces ya conociendo qué es lo que es lo que tengo, vamos a realizar un primer ejercicio, de acuerdo? Entonces se me ocurre, por ejemplo, ver si, claro, recuerden que yo necesito una característica o un tratamiento, no? Entonces necesito variables aleatorias, discretas acá cuáles me podrían servir por ejemplo avión, si es lo que es una variable discreta que otra cosa sí.

00:21:14:14 Cuántos días al mes realiza deportes, por ejemplo? La edad también me sirve. Bueno, acá está discreta, digamos que no tiene, no dice tengo 20.3 años, 20.5 años, no está discreta, está acá el género. Género lo puedo dividir los grupos en género también, no? Entonces digamos que podemos hacerlo aquí por el lado de género. Vamos a ver si entre géneros, entre hombres y mujeres, hay alguna diferencia en los promedios de alguna otra variable.

00:22:05:10 Entonces voy a por acá, genero una tabla para ver cuál es la la frecuencia entre hombres y mujeres. Recuerden que uno uno indica que es mujer, cero me indica que es hombre. Entonces tengo 363 mujeres y 375 hombres y esa es la muestra para un total de 738 738 observaciones 738 personas en la muestra. De acuerdo, entonces vean que casi que 50 y 50 hombres y mujeres acá, eso lo hago un poco para ver, para conocer la base de datos que tengo de momento acá.

00:22:40:02 Entonces acuérdese que mujer uno, hombre cero, eso para tener claridad acá les voy a por cuestiones de tratamiento. Voy a decirle que a esos unos y ceros que están al lado me los ponga como hombre y mujer. Esto es solamente algo de carpintería y pintura. Si yo vengo no le hice nada más aquí. Acuérdese que yo tenía mujer uno, hombre cero.

00:23:06:11 Lo que hice fue decirle oiga, a esos unos y ceros, póngale una mascarilla, un label, una etiqueta por detrás, digamos por dentro. Sigue siendo unos sinceros, véanlo acá, aquí en la parte de arriba. Cuando yo selecciono Mujer sale uno y cuando selecciono Hombre, sale cero. Entonces sigue siendo una variable discreta. Por qué no utilizo ésta? Pues porque esto es una variable tipo texto.

00:23:26:00 Entonces yo no puedo sacar cálculos con una variable tipo texto. Entonces lo que hice fue convertir estos ceros y unos los dejo siendo ceros y uno. Verán que en el fondo siguen siendo ceros y unos, pero para poder identificarlos más fácilmente les pongo esa mascarita ahí encima. Ni eso. No, no es nada del otro mundo. Lo que acabo de hacer acá.

00:24:03:07 Entonces les dije quiero ver si entre el género, por ejemplo, entre en género e ahí. Bueno, primero quiero que por género me saque algunos estadísticos. Esto quiero, quiero ver si por género entre hombres y mujeres puedo obtener yo algunas, algunos estadísticos. Entonces, qué tengo yo por acá? Les hombres, mujeres, la estatura? Ojo, que todo está con la estatura.

00:24:27:05 Entonces yo quiero ver si entre hombres y mujeres, es decir, dicho de otro modo, el hecho de ser hombre o ser mujer tiene alguna consecuencia en la estatura de lo que me quiero yo preguntar. Acá hay diferencia en la estatura promedio entre los hombres y las mujeres? Claro, no, no quiero entrar aquí en discusiones sexistas o algo así.

00:25:05:07 Simplemente quiero ver si el hecho de ser hombre o el hecho de ser mujer en promedio tiene algo que ver con la estatura. Ese es el tratamiento o es la característica ser hombre o ser mujer? Eso que yo lo puedo hacer con más de dos variables discretas, sí, y eso ya me lo convierte en humano. Por ejemplo, ya no tengo solamente una variable aquí que son hombres y mujeres, el género y la estatura, sino puedo meterle más variables para hacer un análisis un poco más robusto, entonces eso es lo que yo quiero ver con este ejercicio.

00:25:52:14 Anoté otra vez lo que quiero ver con este ejercicio no es, oiga, entre hombres y mujeres hay diferencias estadísticas. En la estatura afecta, influye ser mujer o ser hombre en la estatura promedio, eso es lo que quiero ver. Entonces acá tengo yo la estatura promedio o que tengo la desviación estándar. No tengo valores perdidos, por así decirlo. La estatura mínima del hombre de este grupo, de la estatura mínima son 158 centímetros, la estatura máxima, la persona más alta uno 94 y en las mujeres la estatura mínima uno 46 y la máxima un 83 liso.

00:26:29:00 Entonces eso es como, como una estadística descriptiva que yo obtengo de estos datos que fueron hombres y mujeres. Listo, qué otra cosa puedo hacer? Puedo realizar un una gráfica de caja? Creo que se dice así en español, no box block cierto de la estatura de toda la muestra, pero que me la divida por géneros nuevamente entre hombre y mujer.

00:27:20:05 Entonces aquí tengo, aquí tengo mi box plot. Vayan, vayan mirándolo. Voy a revisar rápidamente si ahí en preguntas que pueda responder rápidamente, Adriana me dice podrías utilizar las opciones de panel horizontal? Es decir, que como el menú te entiendo, el menú para para los comandos para alcanzar estos resultados, por así decirlo, si se puede, se puede hacer yo puede obtener todo esto que les estoy mostrando a través del menú stata, por así decirlo, por acá, describir los datos y demás, pero por cuestiones de tiempo y de practicidad lo que hago es utilizar los comandos.

00:27:50:01 De acuerdo? Porque entonces me puedo enredar yo quizá un poco diga por dónde es que está lo de escribir y como saco esto se estadísticos tengo que buscar, digamos, por acá, no sé si entonces por cuestiones de practicidad eh, lo que hago es con con el comando como tal. Vale, entonces voy a volver a mi gráfica que se me perdió por acá estaba y aquí yo puedo ir analizando información y ver si de una u otra forma hay diferencias en la estatura.

00:28:23:21 Entonces tenemos por aquí un límite superior de destacada que es mi tercer cuartil, el 75% de los datos. Aquí tengo el segundo cuartil, la mediana está acá, el primer cuartil, el 25% de los datos y vean que bueno, por un lado, aquí yo puedo ver un poco la distribución de estas muestras. Si hay algún tipo de asimetría no es hay aquí.

00:28:46:07 En este caso hay una asimetría negativa, es una simetría positiva, porque digamos en este caso la parte de arriba de la cajita es un poquito más ancha que la más grandecita que la de abajo, eh? Bueno, y aquí arriba y por fuera de eso yo tengo valores atípicos y no más allá del tercer cuartil o más acá del primer cuartil.

00:29:14:02 Entonces ven que hay algunos datos atípicos. No, tengo que entrar, eliminarlos, que muchas veces la gente oiga, tengo datos atípicos, no sé cómo lidiar con eso. Lo que hago es eliminarlos, sacarlos, chao. No, no, no, porque igual son datos que hacen parte de la muestra y hay que después entonces entrar a analizar con con mayor detalle acá pues que cuáles son esos datos atípicos, fue algún tipo de error de redacción, por ejemplo, o son datos reales?

00:29:39:19 Y si son reales hay que, hay que dejarlos? No, no se pueden pasar por alto. Y esto es un mal. Cómo sé si hay asimetría positiva o si está sesgado? A la derecha está este tipo de simetría que les decía yo si la parte más larga de la caja es la parte superior, entonces los datos se concentran un poco.

00:30:02:01 Bueno, digamos que en la parte inferior de la instrucción. No, no, no los voy a confundir acá digamos que sí está mediana en toda la mitad. Quiere decir que es una distribución simétrica tipo distribución normal, cierto? Pero vean que aquí arriba es un poquito más angosta y aquí vamos, un poquito más angosta. Entonces esto me indica que no es simétrica.

00:30:30:07 Listo, eso por ese lado. Ahora qué otra cosa puedo hacer? Yo puedo sacar gráfica de barras si veo que en promedio. Pues sí, hay una diferencia, no? Que los hombres tienen una altura promedio más alta que las mujeres. Sí. Ok, entonces estoy haciendo diferentes tipos de análisis estadísticos y gráficos para ver qué es lo que está pasando, no?

00:31:05:13 Pero bueno, ya, ahora si yo quiero saber en pues si hay una según según el Anova no? Bueno, acá también puedo sacar el histograma o incluso puedo sacar una gráfica de densidad que con esto yo miro de nuevo. Pues qué tan simétrica? Simétrica es? Son, son estas distribución? Listo para sacar el ANOVA? El comando es este que les pongo acá one way.

00:31:33:10 Esto me permitió a mí sacar el Anova y yo le estoy diciendo entonces ojo, yo quiero ver si esta categoría sí está, perdón, yo quiero ver si esta variable, estos resultados, acuérdense en la diapositiva, el G1, los resultados, yo quiero ver si los resultados de la estatura se ven influenciados por esta variable categórica, o este o esta característica o este tratamiento que es el género.

00:32:09:04 Eso es lo que le estoy diciendo en esta. Esta es importante que el orden digamos de estas variables, primero van los resultados o las variables observadas. Ye lo que en la diapositiva yo ponía como el g, y luego si van las características o los tratamientos de acuerdo en Stata van de esta manera, entonces esa, ese es el comando y le doy enter y entonces vean rango y aquí me sale el comando, lo que les puse y aquí esto que tengo yo y que estoy resaltando viene a ser mi análisis de varianza.

00:32:39:17 Mi Anova me dice cuál es la fuente? Vean lo que yo les estaba mencionando. Por eso era era importante que primero viéramos un poco qué eran. Este Bitcoin groups es este within groups. Aquí lo que está haciendo es dividir la varianza estaba muestra entre los grupos y al interior de los groups y aquí me muestra la suma de los errores, los grados de libertad, el error medio en mi square, bueno por medio al cuadrado.

00:33:15:22 Y finalmente llegamos al estadístico F. Ven por acá al estadístico F. Como es un valor grande, no es un valor grande. Esto me indica que de una u otra forma, como es un estadístico alto, estoy rechazando la hipótesis nula. Y cuál era la hipótesis nula? Que no hay diferencia en los promedios de los grupos. Entonces, de nuevo, la hipótesis nula la voy a escribir acá no hay diferencia en los promedios de los grupos.

00:33:45:23 Es decir, la hipótesis nula es que no hay diferencia en la estatura promedio de los grupos, es decir, si soy hombre o si soy mujer, eso no afecta en nada la estatura. De acuerdo, eso es lo que me está diciendo ahí. Claro, como el estadístico F es muy alto. Estoy rechazando esto. Estoy rechazando eso. O sea, esto me indica que sí hay una diferencia en la estatura promedio entre los grupos, entre los hombres y las mujeres.

00:34:17:17 Listo? Estadísticamente, sí hay una diferencia en la estatura promedio entre los hombres y las mujeres. Hizo. Ese es como la primera conclusión que puedo sacar. Qué otra cosa puedo hacer por el mismo comando le agrego aquí tabular. Bueno, Perroni y lo que hace es darme un poco más de información. Claro, tengo la mi, la misma Anova. Tengo los mismos resultados de acá arriba.

00:34:54:03 Bien. 885. 885.24. Pero aquí me trae estas estadísticas descriptivas que yo había sacado anteriormente la estatura promedio es la desviación estándar y la frecuencia, y aquí abajo me dice Oiga, vea cómo estoy comparando la estatura por el género. Y me dice que la mujer en promedio. Bueno, ya veo que sí hay una diferencia estadística en esta muestra. Es decir, la estatura sí se ve afectada por la característica de la persona, si es hombre o mujer.

00:35:15:20 Y aquí me está diciendo oiga, la diferencia promedio es de 13 centímetros, es decir, la mujer. Las mujeres son en promedio 13 centímetros más bajitas que los hombres. Esta muestra en esta muestra, ojo, no, no, no quiero que ustedes hagan comentarios sexistas de que entonces la mujer entonces es menor y es más pequeña que el hombre. No, no, no, nada.

00:35:46:17 Eso en esta muestra en la estatura, la mujer en promedio tiene 13 centímetros menos de estatura que los hombres. De acuerdo, eso es lo que me muestra acá, que es no es más que la diferencia entre estos promedios. Vean, 176 -163. Pues ahí tengo yo los 13 centímetros. Esto es la diferencia de los promedios. Vale. Listo. Quiero que hagamos entonces otro ejercicio.

00:36:13:01 Nos quedan unos minutos para ver qué pasa. Por ejemplo, no sé si se me ocurre para ver si el número de hermanos que yo tengo que de nuevo es una variable y a ver, vamos a poner por acá número de hermanos. Viene a ser una variable discreta, no un hermano, dos hermanos. Yo no puedo tener 3.85, hermano un 5.64.

00:36:39:20 Hermanos No son variables discretas, son datos discretos. De acuerdo, se me ocurre para ver si este ano, si funciona o no, si es pura carreta. Se me ocurre, digamos, preguntarme oigame el número de hermanos que yo tengo afecta el promedio de mi estatura? Se lo ve la característica o el tratamiento ya no sería si soy hombre o mujer.

00:37:03:09 Ahora la característica o el tratamiento es el número de hermanos. Oiga, si yo tengo un hermano, será que soy más alto que aquellos? Tienen cinco hermanos, por ejemplo? Sí, lo es también. O si yo no tengo hermanos, será que soy más bajito que aquellos que sí tienen hermanos? Es decir, el número de hermanos que yo tengo afecta mi estatura.

00:37:33:23 Es lo que yo quisiera averiguar. Se me ocurre para ver si hay diferencia en los resultados o no, si estadísticamente el número de hermanos afecta el promedio de la estatura de las personas, ni eso. Eso es lo que quiero ver, lo que voy a ver. Entonces, con esto en mente solamente voy a sacar aquí una tablita para ver cuál es la distribución de esos datos, cuál es la distribución de los datos.

00:38:14:21 Entonces vean que perdón mínimo, bueno, dato mínimo es cero, es decir, yo no tengo hermanos o el dato máximo es oiga, yo tengo cinco hermanos, entonces se mueve entre 050 y cinco. Acá me dice 91 personas no tienen hermanos, cuatro personas de la 738 tienen cinco hermanos. En el promedio el 50% de los datos está acá. Perdón, pero la mediana del 50% de los datos está acá, es decir, la mitad de la muestra 373 personas solamente tienen un hermano.

00:39:01:04 Eso, entonces así se distribuye un poco estos datos. Listo, he, eso es lo que voy a hacer, eso es lo que voy a hacer. Pero antes de hacerlo, voy a voy a revisar por acá. Veo que hay muchas preguntas, no sé, no sé si alcance a responder todas a ver el preguntas cortitas o para respuestas cortitas dicen por qué el estadístico F solo se muestra en el BETWEEN a, k s, estadístico F bueno, estadístico.

00:39:27:00 En fin, digamos que no es que sea del BETWEEN, sino de la nueva como tal. Vale? Estos tres datos de acá, la suma de los errores, la grados de libertad y el mini square. Esos three sí corresponden a between y y within. De acuerdo, eso es de acá. Esta es la. Esto es lo que se conoce como la prueba de significancia global de la prueba como tal.

00:39:50:19 De acuerdo? No puntualmente de si es between o within. Entonces esto acá estas dos columnistas el y la probabilidad mayor a f es lo que se conoce como una prueba de significancia global de toda la prueba de la prueba a Noah de eso y eso por ese lado ni nis donde podemos encontrar una página o guías de los comandos de esta otra pregunta?

00:40:20:18 Daniela Bueno, eso yo lo puedo sacar directamente de Stata, si tienes data puedes venir aquí a ayuda y en documentación en formato PDF. Aquí te sale todo el manual de en de stata, por ejemplo. Todo, todo, todo es manual de Stata. Lo otro es que si yo ya conozco algunos comandos, entonces yo le puedo decir a esta pa que me ayude, por ejemplo help, ayúdeme con este comando one way, que es eso?

00:40:45:12 El one way. Y acá me muestra entonces una descripción de lo que es esto de acá, el one way, el comando entonces me dice oiga, eso me sirve para hacer un análisis de varianza, me dice si quiere toda la descripción completa, vaya al PDF, al manual del usuario y acá me muestra pues más cositas la sintaxis. Qué más le puedo yo añadir a este one way?

00:41:27:20 Para las personas que les gusta trabajar con los menús, por ejemplo con los menús. Entonces aquí me muestra todo el camino. Por eso, por eso a la persona que pregunta que si lo podía hacer con los menús, pues vean que son cuatro pasos. Por ejemplo voy a estadísticas, modelos lineales, selecciono, no selecciono One way, en cambio si yo le pongo solamente One way y las dos variables, me estoy ahorrando todo esto por cuestiones de eficiencia y por tiempo, por tiempo también acá, porque tenemos solamente una horita es entonces pueden obtener comandos por el manual que se puede conseguir por acá o con este comando ayuda y el comando que yo necesito esto es van.

00:41:57:08 Esas eran como unas preguntas que vi por acá fáciles. Vi una pregunta que tiene mucho texto, entonces a más, más adelante me devuelvo para para poder leer la vida. De acuerdo? Entonces les dije quiero ver si el número de hermanos afecta la estatura promedio y entonces voy a escribir pues el comando Huawei, la estatura y hermanos, de acuerdo?

00:42:23:00 Bueno, voy a volver aquí como lo tenía yo en perdón, me vuelvo con estatura y género en los últimos resultados que tenemos acá. Es una estatura y género. De acuerdo, voy a volver a traer esto acá, mujer. Acá, estatura y género para tenerlos a la mano. Y ahora voy a hacerlo con estatura y hermanos. Juan, güey, estatura y hermano.

00:42:49:02 De nuevo quiero ver si el número de hermanos afecta de una u otra forma la estatura promedio de las personas. Aquí les muestro los resultados. Tómense ustedes cinco segundos mientras yo tomo agua. Tómense ustedes estos cinco segundos para decirme si afecta o no, si hay diferencia estadística en la estatura de las personas, dependiendo del número de hermanos que tengan.

00:43:29:15 Entonces revisen ustedes estos resultados y me cuenta. Bueno, Sandra ya nos dice que no, Diego, que no Sandra. Rodrigo, Juan. Listo? Perfecto. Me quedo. Me quedo contento porque si ya ustedes aprendieron quizá a leer de una u otra forma estos resultados, me doy por bien servido. Listo la mayoría. A todos los que me respondieron me dicen que no hay diferencia, no afecta porque el estadístico es menor.

00:44:02:03 No hay diferencia estadística. En el contexto del ejemplo de los hermanos, como se interpreta el between y el within, no hay diferencia. Puedo explicar la ese se los grupos. Listo Val? Claro que sí. Sí, varias, varias preguntas, varias personas. Perdón, me están preguntando por esto de acá, el between y el within? Y que es el es. Es esto es suma square.

00:44:26:19 Error. Lo que les decía. La suma de los errores al cuadrado. Y este es el Min Square. Error. El error cuadrado promedio por así decirlo. De acuerdo? Em, claro, esto. Esto es importante, pero. Pero no entro yo en detalle. Esto. Esto. Yo esperaría. Digamos que entre más pequeños sean los errores, pues mejor, más robustez tiene, tiene la prueba.

00:45:09:20 Pero digamos que en este contexto no nos interesa mucho mirar esta parte de los errores, esta parte de los errores de acuerdo, el between groups between groups es la suma del cuadrado del efecto o la varianza entre los grupos. La varianza entre los grupos, entre hombres y mujeres. Aquí ya tenemos varios grupos cero hermanos, un hermano, dos hermanos, tres hermanos y así por un lado es y within groups es la varianza atribuible, digamos, entre los que tienen cero hermanos hay diferencia en la estatura promedio, ese es el within.

00:45:40:23 Dentro de entre los que tienen un hermano hay diferencia en la estatura promedio, entre los que tienen dos hermanos, solamente esos entre cada uno de los grupos, es decir within. Y aquí es oiga, hay diferencia entre los seis grupos? Porque tenemos 123456, hay diferencia estadística entre los seis grupos. De acuerdo, entonces el BETWEEN digamos que lo podemos ver como algo más grande, más global, y el Within algo más específico de cada uno de los grupos.

00:46:35:05 Listo. Valen. Viste? Bueno, continúo. Continúe de nuevo porque siguen escribiendo. Continúo y ya, ya, ya vuelvo con las preguntas. Entonces, volviendo a la nota, ojo, vea. Entonces, según el número de hermanos, afecta la estatura? Bueno, entonces aquí me muestra la estatura promedio, la estatura promedio entre los diferentes grupos, entre los que tienen cuatro hermanos, por ejemplo, la estatura promedio es esta 170 centímetros la desviación estándar, la frecuencia que ya lo habíamos visto, no vale aquí la estatura promedio de los siete de los seis grupos, la desviación estándar promedio y la frecuencia total, el análisis de varianza, que era lo que tenía acá.

00:47:05:09 De acuerdo. Qué tengo yo? Tengo el estadístico F. Ya, ustedes me lo dijeron. Como es menor a dos, como es 1001 grados No tengo evidencia estadística para rechazar la hipótesis nula. De acuerdo, voy a escribir otra vez la hipótesis nula. No hay diferencia en los promedios de los grupos. Esa es mi hipótesis nula. No como es menor a dos.

00:47:32:18 No tengo estadística. Perdón. Evidencia estadística para rechazar eso. Entonces, si no rechazo, pues termino aceptando. No? Claro, los estadísticos también van a ver, si no, uno no puede aceptar la la la hipótesis nula. Bueno, el término no rechazando, entonces termino uno rechazando o aceptando la hipótesis nula. Es decir, no hay diferencia en la estatura promedio de los grupos.

00:48:03:05 Cuál es grupos? El número de hermanos? Yo yo armé grupito listo, eh? Claro, si hay diferencias en la estatura promedio acá yo puedo ver que sí hay diferencias, por ejemplo, entre los que tienen un hermano y cero hermanos, los que tienen un hermano en promedio son 0.24 centímetros más pequeños que los que tienen cero hermanos. Claro, sí, hay diferencias en los promedios, pero.

00:48:36:06 Pero ojo, recuerde que eso simplemente salía de la resta de. Es decir, si yo resto este promedio con este es, me van a dar este dato de acá. Sí, pero eso no quiere decir que sea estadísticamente significativo. Es decir, esto no quiere decir que el número de hermanos afecte la estatura promedio. De acuerdo, ojo a no me está diciendo que no, que estadísticamente no hay diferencia entre la estatura de las personas según el número de hermanos.

00:49:05:13 Ojo, porque según el género, si había diferencia estadísticamente. De acuerdo, entonces esto me está diciendo que no aquí lo que me muestra es simplemente esto, la comparación de la estatura de los grupos de estas personas que tienen 0123, hasta cinco y sale simplemente de la red, claro, sí, sí, sí. Hay algunas diferencias de cuatro, de cinco, lo que sea, pero estadísticamente, a nivel global, estadísticamente no hay una diferencia.

00:49:46:01 De acuerdo? Eh. Eso por ese lado. A ver. Qué otra cosa puedo yo encontrar por acá en mi gráfica de Cami, mi box? No vean que en ese caso ya solamente me sale una utilidad o un dato atípico. El grupo de aquellos que tienen cuatro hermanos, entre los que tienen cuatro hermanos hay una persona que mide uno 48 por ahí más o menos uno 40 y pegue cierto, esa es una amplia entre los demás grupos, pues digamos que todo encaja dentro de lo normal entre comillas no?

00:50:16:19 Eso yo lo puedo observar por ahí. Esto eh? Claro, ya, si bueno, voy a hacer lo siguiente, voy a hacer lo siguiente, recuerden que em, yo les dije que y ya con esto finalizo, cuando yo corro una regresión de una u otra forma obtengo y una nueva dentro de la regresión. Ve qué curioso? Lo sabían o no lo sabían?

00:50:48:23 Vamos a hacerlo. Primero voy a correr en la nueva Juan. Juan, güey, estatura y género. Acá está que fue el que ya habíamos hecho. Y ahora voy a correr una regresión entre, a ver, voy a correr una regresión entre estatura y género. Aquí ya corrí, corrí, corrí. Perdón. La regresión, regresión, estatura y género. Vean esta parte de acá a esta parte de acá.

00:51:10:00 A que se les parece? Miren aquí. Les voy a dejar en pantalla. Arriba tengo mi Anova, análisis de varianza, tengo toda esa información, análisis de varianza y aquí abajo tengo la regresión en 1/1 de la regresión. Vean qué tengo. A qué se les parece? Mmmm.

00:51:58:04 Es el mismo Anova es el mismo. No? Vea, tengo la suma de los errores. Los grados de libertad 737 uno 736 el error promedio. Vean. Y acá tengo el número de observaciones. Si, y tengo mi estadístico F. Vean 885.24. De acuerdo? 885.24. Tengo mi estadístico F claro, los demás datos, lo que es el R cuadrado del recuadro ajustado y demás, pues eso sí, salen de la regresión y claro, los coeficientes y toda esta cosa de acá sí, pero vean qué tengo de la NOA.

00:52:21:18 Nosotros muchas veces cuando hacemos una regresión solamente nos concentramos en leer los coeficientes e hacer la prueba té o mirar el PIB válido o mirar el intervalo de confianza. Si en el recuadro hay de más, pero vean de donde sale este esta prueba f que de nuevo es la prueba de significancia global. Este modelo me está determinando estadísticamente es significativo?

00:53:03:11 Estadísticamente, sí. Ahora, qué pasa si yo corro el otro modelo? Regresión, estatura e y hermanos, vean de nuevo me dice este modelo no le sirve a bueno, acá a ver otra vez primero es buen wey pues estatura hermanos. Siento que era lo que tenía y acá regresión, estatura pero no, bueno acá claro, ya como es una regresión sí cambia la cosa, me dice.

00:53:35:11 Estadísticamente está muy cerca de ser, digamos que alcanza a ser significativo en la regresión en la regresión o en la regresión en la regresión como tal. Pero el ejercicio de regresión digamos que conceptualmente es diferente a este, el ejercicio de no, entonces, o con el análisis que se le haga a esta prueba de significancia global en la regresión valen acá digamos que me preguntan, bueno, me preguntan, entonces solamente hacemos la regresión?

00:53:59:11 Depende de lo que tú quieras analizar, Augusto, depende de lo que tú quieres analizar, porque ya no me sirve para ver si hay diferencias en los promedios. Ojo, la regresión me sirve, digamos, para encontrar un modelo lineal que se ajuste a unos datos. Entonces por eso digo que la interpretación de estos datos depende de lo que yo esté haciendo o lo que quiera hacer, de acuerdo?

00:54:30:05 Pero mi punto es que en la regresión esta primera partecita de acá viene a ser muy similar. Por eso dije que yo, que en una primera instancia una nueva cumplía o se podía, digamos que asemejar un poco a la regresión en una primera instancia no lo dije en la presentación. Vale, me encantaría, me encantaría seguir con ustedes acá, respondiendo preguntas, haciendo otro tipo de ejercicios, por ejemplo.

00:55:02:05 No sé, se me ocurre para, para que ustedes se lo piensen. Oiga, será que el nivel de por acá yo tengo el nivel de estudio máximo de mi mamá, por ejemplo, el nivel de estudio máximo de mi mamá afecta en otro. Otra cosa, por ejemplo, o no sé, y viendo, viendo por acá estas ah, teníamos más variables, oigan, si mi papá por ejemplo, si mi papá tuvo un posgrado, una especialización, será que yo voy a ser más alto?

00:55:30:17 No sé, cositas así podemos encontrar por acá. Cuando me dice entonces no coincide la nueva con la regresión, en el caso de en estatura y hermanos no coincide en el caso de estatura y género sí coincide el estadístico F, por lo menos el estadístico F. De acuerdo. Por qué no coincide N en esto? Es en estos otros dos escenarios?

00:55:53:13 Pues de nuevo, porque a fin de cuentas, el ejercicio de la regresión utiliza otra metodología mínimos cuadrados ordinarios. Por ejemplo, que la noche. Entonces, dependiendo de las variables que yo utilice y demás también. Bueno, son cuestiones que por tiempo ya son las cuatro en punto. Por tiempo no alcanzo a responder con mayor claridad. Me piden por acá que sí puedo repetir mi correo.

00:56:20:22 Sí señores, se los voy a escribir aquí por el chat en tres punto cruz se roban software y un sub punto com y se los envíe por el por el chat andrés punto cruz y un punto com. Perdón, sé que quedan preguntas sin responder. Me las pueden enviar por acá al correo con el mayor de los gustos? Se las estaré respondiendo en la medida de lo posible.

00:56:45:18 Eh Daniel? La pregunta de las clases si, bueno, de una vez les extiendo la invitación, no solamente para para esta serie de webcast de Statham, los invito a que estén pendientes de los webcast que constantemente hace software. Son con esta data, con otros softwares? EM Exactamente. Jessica nos dice realizan esto, pero yo realizan eventos semanales con diferentes temas, diferentes softwares.

00:57:17:13 La invitación es a que estén pendientes de toda esa cartelera, por así decirlo, de eventos y pues que se inscriban y aprovechen todas estas posibilidades valen. EM Muchas gracias a todos por su asistencia, por su participación y hasta una próxima ocasión que estén muy bien. Para mayor información respecto al software o en temas relacionados, no dude en contactarnos a través del correo electrónico.

00:57:26:18 Entrenamientos, arroba, software, guion shop, punto com o visitar nuestra página web triple OLE o punto software guión shop puntocom.

Análisis de Varianza con apoyo de Stata 17


El Análisis de Varianza (ANOVA) es uno de los métodos estadísticos más utilizados en el análisis de datos, ya que permite evaluar las similitudes o diferencias entre las medias de dos o más muestras. En este webcast se realizarán algunas gráficas y se ejecutarán modelos ANOVA para determinar estadísticamente si hay diferencias en los promedios de dos grupos muestrales. Así mismo, se compararán sus resultados con los obtenidos por medio de una Regresión Lineal Simple.

Etiquetas relacionadas

  • Análisis de datos
  • Anova
  • Estadística
  • Gráficas
  • Investigadores
  • Regresión Lineal
  • Regresión Lineal Simple

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar