SS_Logo

Stata 18: Trabajo con modelos logit y probit

Autor: Camilo Alarcón / Portafolio: Quantitative / Vie. 15 de Mar de 2024

Transcripción de este video

00:00:34:15 Instructor Camilo Alarcón, Ingeniera industrial economista con doble titulación de la Universidad Autónoma de Manizales, Magister en Economía Aplicada de la Universidad EAFIT y doctorando en Administración de la Universidad de los Andes. Experiencia en la docencia y la investigación en áreas como economía, Administración y Finanzas. Cinco años en el sector privado donde ha desempeñado roles de consultor en programas de protección social.

00:01:18:07 Líder de procesos en áreas de logística, compras y costos, como también la coordinación del desempeño de indicadores de control en el área de soporte a clientes. Bienvenidos Elisa. Buenos días. Buenos días a todos. ¿Me escuchan bien? Sí, te escucho y te hago correctamente. Ya vemos tu pantalla también adecuadamente, así que podemos dar inicio Perfecto. Mil gracias. Bueno, bienvenidos a todos a este a este ratico para hablar de modelos Logic y Provi vamos a tratar de responder algunas cuestiones acerca de esto.

00:01:55:01 Yo trato generalmente de hacer énfasis en este tipo de modelos, primero en el uso y también en en. Desde diferentes perspectivas, cómo podemos hacer el cómo las las diferentes pruebas o digamos cosas que nos pueden servir para poder modelar y mirar Cuáles son esos ajustes de bondad que puedeTn tener estos modelos en su uso y también la parte explicativa que nos podría funcionar mucho, alejándonos un poco de los mínimos cuadrados ordinarios.

00:02:32:05 Bueno, entonces quiero exponerles un poco la la necesidad de o el uso de los modelos lo provee en un análisis, por ejemplo un análisis económico e que esto lo podemos tener desde diferentes perspectivas, desde la salud, desde la educación, desde la economía como tal. En la biología lo podemos utilizar mirando y revisando diferentes fenómenos que van a tener un impacto desde una relación netamente y netamente probabilística.

00:02:58:08 Cierto, entonces la interpretación de la información o de los datos que vamos a tener es netamente probabilística en términos de el uso de una variable que es categórica. Y cuando hablo de una variable categórica estoy hablando solamente de una variable binaria. En términos que vamos a evaluar entre cero y uno o uno y dos, que en algunos casos nuestros datos están formalizados de esa manera.

00:03:27:20 ¿Cierto, pero la mejor manera cuando tenemos EM y o cuando estamos haciendo la la formulación de un modelo lógico pro lo ideal es que nuestra variable, nuestra variable dependiente, esa variable que vamos a explicar y que va a estar explicada por todas por por las variables que nos van a ayudar a esa explicación, pues tiene que ser binaria, cierto?

00:03:56:10 Para poder que esta relación sea importante, yo generalmente sugiero que nosotros la construcción de este de esa variable sea cero y uno. ¿Por qué? Porque en el momento de hacer la evaluación y hacer que digamos que la la relación y encontrar eso que necesitamos en el impacto o lo que estamos buscando e sea mucho más fácil que esté estandarizado entre un valor entre cero y uno.

00:04:24:22 Dado que la estimación que vamos a utilizar el tipo de estimación que vamos a utilizar se va a encontrar entre esos dos que entre esos dos canales y por ende, pues va a ser la interpretación mucho más sencilla, porque a veces cuando utilizamos uno y cero, perdón uno y dos, o sea nuestra variable, la modelamos entre uno y dos, pues va a tener algunas complicaciones en este, en este, en este caso.

00:04:59:21 Bueno entonces que utilizar este tipo de estrategia y va a ser importante para poder hacer esa explicación desde la probabilidad y por eso vamos a utilizar un método. Método de de máxima verosimilitud para poder que nuestros estimadores y nuestro regreso gris pues tengan, digamos que estén en ese mismo campo bajo los que las explicaciones y todo lo que viene tras de una estimación de máxima verosimilitud, pues que no es lo que nos interesa acá.

00:05:34:20 Y pues que claramente el sistema no lo va a dar directamente. Bueno, bien, entonces para hablar un poco matemáticamente y aquí es donde vamos a encontrar algunas diferencias entre lo que es un modelo y un modelo lógico, cierto, generalmente, y eso va a depender mucho de la disciplina en la que estemos. Si hay. Los modelos provi son muy utilizados en en, por ejemplo en el análisis financiero, en cuando estamos mirando riesgo crediticio y ese tipo de cosas.

00:06:09:11 Los modelos lógico y los nuevos proyectos son generalmente muy utilizados para eso, dado que nos nos ha dado la distribución de los datos, porque la diferencia está entre los de la distribución de los datos. Nosotros, nuestra y nuestra función de de de un modelo lógico, por ejemplo, está en pro de otro, está en una distribución logística, mientras que un modelo pro vida está en una distribución normal y esa va a ser básicamente la la diferencia.

00:06:37:08 ¿Entonces nuestra y digamos que nuestra, cuando hacemos la estrategia, cuando estamos haciendo la identificación de esta estrategia, miren que siempre la vamos a ver en en términos de una probabilidad, dado la explicación de esas pensas de de unas variables que son nuestras variables explicativas y qué es lo que estamos esperando en en en, en un modelo de estos?

00:07:09:20 Pues que nosotros siempre estemos en en una probabilidad que se acerque aún. ¿Y cuál es esa probabilidad que se acerque a uno? Pues lo que queramos explicar sea si es verdadero o falso. ¿Que queremos explicar? Pues que seguramente sea verdadero en el ejemplo que tenemos hoy, por ejemplo si, si, si tiene una intenciona ser emprendedor o no tiene una intención de ser emprendedor, que es lo que nos interesa, que esas variables nos expliquen, pues que realmente eso explique una intención a ser emprendedor.

00:07:47:16 Si ejemplos por ejemplo, si estamos en un en un Martín, si el provi lo trabaja con una distribución normal, bueno, entonces de esa manera es que nosotros vamos a tratar de explicar bajo un modelo de este tipo, cuál es la relación que vamos a tener o esa probabilidad de que exista eso que queramos explicar. Y cuando nosotros estamos haciendo la identificación de un modelo proveído Logic pues precisamente es lo que queremos encontrar.

00:08:35:28 ¿Y qué es eso que nos explica entonces? Cuando ustedes estén pensando en formular o en tener o utilizar esta estrategia, siempre su variable dependiente, eso que quieren explicar bajo la probabilidad de algo, ese fenómeno o ese evento que quieren explicar, pues tiene que estar dado en uno para poder darle su mayor probabilidad de esto. Y acá pues matemáticamente es como la construcción de la F, que es básicamente como está construida la la instrucción en este caso en que es logística cierto, entonces podemos ver que estos estos ejemplos y acá simplemente vamos a ver como está la constitución de la probabilidad, mire que vamos a tener siempre en ambos, tanto el oye como en Provi, vamos

00:09:07:02 a tener una distribución entre cero y uno, si que es nuestra probabilidad acumulada y simplemente las diferencias van a estar en la distribución. Entonces miren que un poco la distribución provi va a tener, va a tener, digamos que que esta constitución y un modelo lógi, pues digamos que un poco más, más hacia esta forma, que es un poco más logística.

00:09:33:28 ¿Juan Camilo nos pregunta en un modelo no oído, pero también tendría que controlarse los valores Add dice o no el mo cesario para este tipo de modelo? Sí, sí, porque es es. Es importante primero encontrar la correlación entre las variables independientes y cuando tenemos ese tipo de. Porque a veces esos ateliers nos empiezan a hacer un poquito de ruido.

00:10:09:10 Claro, no vamos a ser tan estrictos como lo hacemos en el modelo de regresión lineal, pero es importante tener esos mismos parámetros para un modelo lógico. Pro esto, y aquí podemos ver cómo las diferencias entre un modelo logístico e un modelo en normal. Cierto, la teoría de la regresión mal y todo lo que hacemos con con regresión lineal y lo que hacemos con la regresión logística o comparar este tipo de ejemplos para mirar como las diferencia.

00:11:04:24 Cierto entonces por ejemplo nuestra miren, en una regresión normal nuestra que es una y variada y tenemos datos continuos. Si entonces hacemos un análisis, un variado multi variable en ese caso, pero en este caso nuestra variable estrictamente es continuo, que esto que podemos utilizar variables discretas o binarias en un modelo de regresión es lineal. La teoría. Uno de los teóricos más importantes de la econometría hoy nos dice si puede utilizar el modelo que ene MP si en un modelo de probabilidad lineal si y él dice que si bien va a tener algunos problemas con esto, que nos lo vamos a tocar hoy, pero para que lo revisen también lo podríamos mirar acá bajo unos supuestos

00:11:39:09 que que el en el teórico no es cierto, pero por lo pronto y bajo una estimación de de máximo de verosimilitud, pues si vamos a utilizar estos dos em e estos dos tipos de modelos para poder. Pero entonces simplemente vemos acá que una regresión logística pues bastarda precisa mente por todo lo que tiene que ver con la función logarítmica, que era como lo veíamos anteriormente.

00:12:27:26 Y esa función logarítmica pues va a estar explicada. Por supuesto que que sacar mis puntos aquí un poco para ver las diferencias entre una regresión lineal y una regresión logística con un grupo. En este aspecto un poco hablar acerca de la máxima verosimilitud que como les decía anteriormente, digamos que no nos no nos interesa en mucho adentrarnos en esto, pero pues porque digamos que el el software no es astuto, todo el desarrollo que ha tenido nos ha servido para esto, entonces sirve entonces dadas dadas las funciones de de un logaritmo natural, pues vamos mirando cuál es la relación que existe entre cero infinito y el valor de máxima función de varios similitud.

00:12:48:05 Y ahí vamos a tener uno supuesto. Es que obviamente tenemos que controlar entre unos errores que se pueden generar un error tipo uno, un error tipo dos, pero que digamos que este tipo de modelos nos ayuda a suavizar un poco ese tipo de errores para no caer en un falso positivo o en un falso negativo y ese tipo de cosas que pueden pasar.

00:13:19:26 Esto Entonces la función de máxima verosimilitud logarítmica suele ser más fácil de trabajar que una función de probabilidad e y normalmente porque la función de densidad de probabilidad tiene una estructura en un producto. Y entonces, dado que nuestro nuestros valores de la variable dependiente van a estar entre cero y uno, ahí podemos encontrar esa relación y por eso podemos dar una explicación de un efecto, de un impacto o de diferentes cosas que estamos buscando en términos probabilísticos.

00:13:56:06 ¿Listo? Bueno, algunos de los supuestos que los vamos a ver acá uno es linealidad en los logaritmos ciertos o en la función de acumulación de normal. Aquí simplemente ambos modelos van a asumir o vamos a asumir que existe una relación lineal entre las variables independientes y las variables y la función. Cierto, hay una relación entre esas variables independientes y el tipo de función en el caso del login o una función acumulativa.

00:14:26:26 En el caso de una función acumulativa normal en el caso del PRO. Y ese supuesto lo que va a implicar es que un cambio en una unidad de una variable independiente tiene un efecto constante en eso. Es en esos efectos de de probabilidad que tenemos visto aquí. También vamos a ver la independencia de los errores cuando veamos estos block o que solo lo vamos a ver para el logaritmo, porque para el no lo hacemos dado que es acumulación normal.

00:14:50:08 Entonces ahí vamos a tratar de explicar un poco como es la lectura de esto y se lo voy a enseñar. Es poco la independencia de los errores que asumen, como asumimos que estos errores no están correlacionados entre las observaciones, un poco lo que nos preguntaba Juan Camilo ahorita, entonces tenemos que guardar esa proporción también entre, entre, entre la independencia y los errores.

00:15:19:27 Y por eso también tenemos que revisar el tema de los valles, porque es importante y hay que tener cuidado con ateliers, porque si no tenemos una base de datos construida que sea muy grande, pues por ley de grandes números pues vamos a tener problemas. Entonces eh, cuidado con los salarios, cuando los vayan a a trabajar, listo. Y la independencia de datos relevantes hace referencia a que en algunos contextos se asume una independencia.

00:15:50:15 EM. ¿Qué va a significar la inclusión o exclusión de una variable independiente y no afectar la relación entre las demás? Entonces, cuando veamos que en una de las variables no tenemos una consistencia, no tenemos un efecto, tenemos una significancia estadística importante, no vamos a tener, digamos que una, una EM, una relación, o sea, no nos va a afectar el el el modelo con respecto a lo otro va a ser mucho ruido, es cierto, entonces no afecta eso.

00:16:20:07 Y las variables independientes y la variable dependiente, pues van a tener planes como como ese tipo de cosas. Entonces si usted saca una variable, la elimina porque no le está mostrando nada, no le va a hacer ningún ruido, la puede dejar, la puede quitar y va a tener, digamos que los mismos, los mismos efectos y las mismas explicaciones, a diferencia de lo que pasa en un modelo, es que esto acá cuando les hablaba de los nosotros vamos a mirar que son los O Ray y vamos a mirar de que se trata.

00:16:55:24 ¿Es una razón de probabilidad, cierto? Lo que hace es que nos lleva a tener una media estadística de que lo vamos a usar para cuantificar la asociación entre dos eventos o variables categóricas en un estudio de casos o controles, o en un análisis de unas tablas de contingencia que el mismo sistema nos lo da. Esto entonces, simplemente nos ayuda a comparar situaciones en las cuales la probabilidad de que ocurra un un evento con éxito hagamos podamos ver ese análisis entre grupos diferentes.

00:17:23:00 ¿Cierto? Entre hombres y mujeres, entre emprendedores y no emprendedores, entre enfermos y enfermos, entre diferentes aspectos que nosotros estamos buscando. Y aquí vamos a tener la relación de esos odds ratio. Si entonces si tenemos un ratio igual a uno significa que no hay una diferencia significativa, que la probabilidad del éxito entre los dos grupos es pues casi como nula.

00:17:46:12 Entonces vamos, no vamos a tener ninguna asociación interest. Sí, sí, vamos a tener un odds ratio eh, mayor a uno, ahí vamos a tener una. Es una un efecto importante, una asociación importante es la variable independiente con respecto a la variable dependiente en de una manera más positiva. ¿Cierto? Cuánta cantidad de veces o cuántos números o cuántos es.

00:18:19:20 Es como esa probabilidad que tenemos de que ese evento si ocurra, si ocurre y si el valor o ese ratio es menor a uno, pues vamos a tener todo lo que es inverso. Entonces vamos a tener una relación que inversamente tiene un incremento o que no está explicando. Bueno, voy a explicar de una manera inversa que es la posición que tiene y esa es la relación, entonces ya de cuando vamos el modelo les va a explicar bien como funciona.

00:18:46:23 Vamos a ver también la curva de error y estos dos que estos dos, bueno, más que toda la curva es una media que nos ayuda a mirar esa discriminación del modelo clasificatorio cuando es es binario. ¿Entonces lo importante de la curva de RO es que nos va a ayudar a identificar qué tan to se ajusta ese modelo a lo que estamos explicar, cierto?

00:19:14:21 Entonces, cuando vemos que un AC, un tenemos una curva de RO que indica que es el 0.5, vamos a ver que el modelo uno tiene una capacidad de discriminación y clasifica las instancias de de manera aleatoria. Si, mientras que un ROG de un no va a indicar un modelo perfecto, no vamos a tener un modelo perfecto entonces. Pero digamos que cuando eso ocurra es porque estamos haciendo ajuste de un modelo muy bueno que va a ser muy explicativo.

00:20:00:26 Y cuando estamos haciendo un tipo de investigación, si con con esta es tipo de identificación, lo que vamos a lograr es precisamente que esto cubra todas esas cosas que nos puede decir un editor, nos puede decir, digamos en la ponencia que no cumple los estándares, pero vemos con esto que podríamos dar ese soporte para explicar lo listo que es cuando tenemos un valor que generalmente es un asset de 0.72 veces superior al 0.70, Entonces vamos a encontrar que entre estos extremos se sugiere un modelo que tenga capacidad de discriminación moderada y en general, cuanto más cercano ese valor sea uno, pues vamos a ver que va a tener mejor rendimiento.

00:20:41:28 El modelo en términos de discriminación. Sin embargo, una interpretación exacta, este valor, pues, va a depender del contexto específico y de los estándares de rendimiento requeridos de una aplicación particular. Listo. Bueno, entonces yo me inventé esta pregunta de investigación de acuerdo a lo que yo trabajo. Entonces aquí puse una cosa muy loca. Esto seguramente va a mejorarse mucho en cualquier tipo de investigación, pero yo quiero mirar cuál es la probabilidad, cuál es esa relación que tiene o cómo los factores universitarios pueden influir en una decisión de emprendimiento.

00:21:12:10 ¿Ok, que significa eso? Son siglas en inglés. Ya. Típico. ¿Bueno, entonces cuál es la probabilidad de que exista un individuo? Entonces aquí, antes de seguir, les comparto esta bibliografía donde pueden encontrar información acerca de modelos provida y lógica, como pueden también hacer más pruebas de banda bastante justo aquí existen montones para poder revisar como. Como hacer este tipo de cosas.

00:21:58:18 ¿Listo? Listo. Entonces lo que voy a hacer es compartirles el ejercicio que tenemos para responder a esa pregunta de investigación. Según.

00:22:33:08 Bueno, muy bien concepto. Voy a compartir toda mi pantalla. Bueno, aquí ahorita estaba haciendo algunas pruebas del modelo, entonces lo que quiero que veamos es que yo en la construcción que tengo de mi modelo y mi variable dependiente se llama emprendedor y lo que podemos encontrar son variables de entre cero y uno. Si son datos, información entre cero y uno, donde cero es no ser emprendedor o no tener una intención de ser emprendedor.

00:23:12:07 Y dos y uno perdón es ser emprendedor. Esto es una base de datos que se recoge a nivel mundial a estudiantes universitarios para medir como todo lo que es acerca del espíritu emprendedor que calle toda esta información para poder ser esté listo que bien. Y pues quiero mirar otro tipo de variables como el ambiente universitario y el como el plan de estudios, cierto, como por ejemplo el el plan de de de de los que tienen en las universidades, pues influye en esa intención emprender.

00:23:55:05 Estos son variables latentes que yo cree. Cierto es que la base de datos ya tiene los constructos y me permite trabajarlas de esta manera bajo un sistema de análisis factorial. Y entonces ya tengo mis dos factores que me van a ayudar a explicar esta varias la. Las bases de datos no son públicas y estas bases de datos no son públicas entonces, pero pues si quieren revisar y es haraganes, hay muchos artículos que que funcionan con este y otras variables adicionales que quiero medir como la profesión, como la edad, como el género, que me ayudan un poco a controlar que es lo que tengo acá.

00:24:38:07 Listo, entonces este es como con las variables vamos a tener una cantidad de datos alrededor de los emprendedores. Tenemos 13.041 datos, que es la relación que vamos a utilizar, o sea, tenemos una muestra grande, esto es para estudiantes en Colombia solamente, entonces tenemos 13.000 estudiantes que vamos a a evaluar a ver si tienen una intención o no, y tenemos 7500 más o menos que estudiantes que no tienen una intención o reportan que no tiene una intención y 5000 estudiantes que sí tienen una 5500 estudiantes que sí tiene una intención.

00:25:15:09 ¿Qué es lo que nos va a interesar de este modelo, que es lo que queremos explicar? Pues precisamente que esas variables, como el ambiente universitario, como el plan de estudio, como la profesión, por ejemplo, me expliquen que eso va a aumentar mi probabilidad de que yo tenga una intención en esto. Bien, entonces vamos a mirar nuestro modelo. Primero vamos a mirar el login para que con el login trabajemos, miremos como podemos hacer las diferentes análisis y también para que miremos los ODS.

00:25:55:24 Listo. Entonces aquí tengo mi modelo logging. Como siempre utilizamos login la palabra login el o el comando login que nos va a traducir inmediatamente lo que queremos hacer en nuestro modelo, seguido de nuestra variable dependiente, que es nuestra variable emprendedor, que y ya nuestras variables independientes. Cierto ambiente universitario género profesión. Voy a poner TL pues acá es es más que todo aparte pele más que por acá.

00:26:32:04 Les voy a mostrar como está la construcción de la base de datos PL son program learning como el programa de aquí poco. Estos son los constructos que tengo. Esto sucederá si puedo hacer esta construcción. ¿Listo? Bueno, ya te respondo. Karla Bueno, entonces vamos a mirar nuestro primer modelo a ver qué nos arroja esto.

00:27:04:07 El el. El modelo hace unas iteraciones de acuerdo al al anexo a la estimación de máxima verosimilitud para encontrar esas relaciones. Y lo que vimos acá vamos a encontrar casi que lo mismo que podemos encontrar que sus coeficientes, que en este caso y en Provi nosotros no hacemos una lectura de estos coeficientes. Esto para nosotros estos valores no va a tener ninguna relevancia.

00:27:42:23 List Lo que nos va a interesar acá es la significancia estadística que esté por debajo de de 0.5, sea superior a 0.5. Y pues lo que podemos encontrar aquí es que nuestras variables explicativas no tienen ninguna relevancia. Entonces, como tenemos los supuestos de de relevancia, por ejemplo, entonces podríamos sacar esas variables y poner otras para explicar. Aquí pueden haber diferentes problemas, como por ejemplo que mi variable dependiente pues no sea la o no esté contemplada, como con esa intención de de lo que estamos haciendo.

00:28:13:07 Listo. ¿Qué nos interesa esto? Nos interesa esto el si, el signo siempre nos va a interesar. ¿Por qué? Porque vamos a notar que el signo va a tener una relación con respecto al fin. Entonces, ante menos, ante menos influencia de un ambiente universitario, pues vamos a tener una relación negativa para tener un intencional prender cierto como para ir a emprender un plan de estudios.

00:28:46:15 Por ejemplo, si un plan de estudios es más fuerte en plan de aprendizaje, es más fuerte, pues eso va a llevar a que yo tenga una vez sí tenga una intención emprender. Y aquí vemos, por ejemplo, el género hombre mujer es la profesión. La profesión no tiene como, aunque significativa, diríamos que si no tiene una profesión, entonces pues ante una una ineficiencia en una profesión, pues vamos a tener menos intenciones.

00:29:48:27 ¿Ser emprendedor y la edad también tiene, hay como una relación esto, bueno, esto en cuanto a los resultados, cómo puede utilizar el otro el ratio, por ejemplo? Entonces, para obtener eso y tener la lectura, podríamos decir en este lodge o después Bertrand, Entonces utilizamos el mismo login va iba acompañado de al final una coma y le ponemos o el si que significa o el ratio y el el sistema inmediatamente ya me vas a cambiar este coeficiente inte por otro Teach esto entonces ese otro ratio que significa y eso si va a tener una lectura, porque eso es lo interesante, debe de ser cuando que cuando estas variables tienen una significancia estadística del 95%.

00:30:49:23 ¿Bien, entonces qué significa esto? Vamos a decir, por ejemplo, estos son los planes de estudio en el ambiente universitario. Miramos uno que este por acá. ¿Bueno, acuérdense que cuando es igual a uno o muy cercano a uno, eso no nos dice mucha relación, cierto? Como la asociación entre la variable y entre otros. Si aquí no tenemos valores superiores, tenemos varios valores inferiores, cuando tenemos valores inferiores a uno o es menor a uno, al otro ratio, entonces la teoría nos dice pues lo tiene, tiene que convertirlo a la inversa para tener una lectura si entonces si yo lo convierto por acá, si yo digo que uno dividido este valor en 0.7, por ejemplo, digamos este 0.70,

00:31:33:04 entonces tengo un valor de 1.42. Qué quiere decir ese 1.42 en en este, en este caso ante un una unidad adicional de un año ante un año adicional. ¿Cierto es este que tenemos acá ante un año adicional de de de No, esto es mujer, cierto? Entonces si tenemos una mujer adicional y en este caso de una mujer adicional, vamos a tener 1.4 veces más probabilidad de ser emprendedor.

00:32:13:18 ¿Perdón, menos, porque esto es el inverso, cierto? ¿Entonces ante una mujer adicional vamos a tener 1.4 veces menos intenciones de temprano, cierto? Y lo mismo para hombres acá, porque estos no tienen mucha relación. En el caso que este ámbito universitario, por ejemplo, fuera 4.89. Cierto. Entonces la lectura sería la siguiente Ante un aumento en un ambiente universitario más emprendedor, vamos a tener 4.8 veces más intenciones de emprender.

00:32:39:14 Sí, esa sería como la lectura. Y esto va muy relacionado al sí, sí, por eso hacemos esa esa lectura de de esto. Si hay como preguntas por acá que el signo es positivo, mira que nos dio que el signo es negativo, mira, mira que la relación con el signo es negativo. Sí, igual para hombres y para mujeres. ¿Por qué?

00:33:04:04 Porque esto no tiene ninguna significancia estadística. Entonces digamos que no está teniendo ahí ningún control. Estoy poniendo unos ejemplos de acuerdo a lo que sí nos da, por ejemplo, la profesión y la edad. Pero mire que son variables muy, muy, muy no nos están dando la explicación que necesitamos, incluso si queremos mirar estos planos y esta, pues no tenemos mucha relación.

00:33:26:06 Sí, pero es la lectura. Sí, sí, pues es cómo nos dio. Si es esto supondría que nos debería dar negativo. Es cierto, ver positivo para la intención, pero es más como la lectura y la interpretación que hacemos, la explicación de la edad, por ejemplo, en este caso miren que es igual a uno, si es igual a uno, no hay una asociación de la variable.

00:34:05:14 Pero supongamos que la edad nos hubiera dado cinco. Es cierto, entonces ante un aumento en la edad de las personas, cierto, vamos a tener cinco veces más intenciones de emprender. Esa sería la lectura. Manuel, si te queda claro, esa sería en este caso, si tenemos un valor que nos da la explicación. Y eso sería, Pero el Lhotse, el Lhotse en este caso nos está diciendo que no hay mucha relación.

00:34:32:07 Si nos vamos otra vez a la diapositiva, mira lo que dice cuando el otro ratio es igual a uno significa que no hay diferencia. Las probabilidades de éxito entre los dos grupos no hay una asociación. Esto. Pero si queremos evaluar lo que nos quiere decir más que todo el otro, es que no tenemos. Digamos que es una variable importante, pero pues porque tiene una significancia estadística, pero miren que no tiene una asociación relevante.

00:35:37:15 Entonces estos son detallitos que nos empiezan a organizar, como esas ideas de la explica son que queremos dar esto. Ahora miremos la ah, bueno, aquí está el predi. Esto es a lo que quiero mostrar, porque esto es nuevo acá. Bueno, yo no creo que tenga que ver con el tamaño de la muestra, yo creo que tiene que ver con el tipo de variable, puede ser con la variable, puede ser que la variable no tenga mucha explicación, mucho más que escribir quiero mostrarles este predio y entonces vamos a K, la base de datos y entonces mire, efectivamente cuando yo miro la predicción, miren que este es más chiquito, miren que la probabilidad de ser emprendedor en

00:36:02:07 este, para este, esta persona es de 0.4, de no ser emprendedor es del 0.41. Entonces miren, si yo veo esta predicción, miren que las probabilidades son muy intermedias, está como entre el 0.5. Sí, mire, si yo lo miro acá, mire, y ese puede ser el problema y de quien me estaba diciendo ahí, miren, este puede ser el problema ante una probabilidad.

00:36:33:02 Mire por aquí, este no tiene. Mire, este es de la probabilidad de ser emprendedor acá. Un 0.34. Entonces aquí esto es lo que hace referencia a esos problemas que estamos identificando. Bien. ¿Entonces les quería mostrar ese periódico precisamente para eso que este de sombra usted mismo medio que ya lo vimos a Bueno, entonces ahora queremos interpretar esos esos datos, cierto?

00:37:29:10 Queremos interpretar que nos dice eso cuando encontramos un modelo fuerte sobre sus cosas, entonces vamos a hacer márgenes que como esto es una, pues vamos a hacer que este y otras y hacemos el match. Si soltamos al Martins de obtener A piense que es el problema que tengo, da un resultado de 100. Ah, miren, aquí tengo este problema, me está cogiendo gender con este.

00:38:14:24 ¿Si bien este es un problema que tenemos, entonces que vamos a hacer? Vamos a hacer un tiro, o sea que para lo cual a los 99 me salió una señorita que se me hizo, ahí vamos a encontrando que es lo que pasa con este tipo de cosas. Bueno, esto es lo quitamos a otro. Oh, exactamente Leticia, puede ser que eso esté pasando, pero ahí ya encontramos un problema en la base de datos.

00:38:49:21 Por eso hay que limpiar la. Bien, entonces voy a quitar el en un segundo para poder que tengamos aquí la estimación del modelo. Unos para andar los Marlins para así, y entonces la lectura que hacemos de esto en el caso es que ante un una eh, una disminución el ambiente universitario, pues vamos a tener una probabilidad de 0.4 puntos porcentuales de emprender.

00:39:24:05 Si se los voy a anotar. En este caso que nos dio negativo, pongamos la profesión, hagámoslo en la profesión que tenemos un valor acá. Importa entonces ante un EM, ante una disminución, ante un profesional menos cierto, ante una profesional con que no sea profesional vamos a tener una probabilidad de 0.025 de 0.25, 0.25 puntos porcentuales de ser emprendedor.

00:39:59:13 Sí, y aquí con estos datos que en puntos porcentuales ya hacemos nuestro nuestro, nuestro análisis listo, eso ya lo podemos interpretar. Y cuando estamos escribiendo un paper o cuando estamos haciendo alguna de estas cosas en entonces, generalmente ahí es donde tenemos que revisar. Ahora miremos nuestro blog y entonces nuestro rol que es un área bajo la curva y nos dio 0.55.

00:40:35:01 Si nos vamos a nuestra presentación, un ROG de 0.5 indica un modelo que no tiene capacidad de discriminación. ¿Entonces, qué decimos acá? Ah, pucha, ante esto que tenemos, no tenemos como un buen modelo. Sí, este modelo como que nos está diciendo nada y tenemos que empezar a buscar cosas. Si está chévere, porque generalmente uno siempre trae modelos súper buenos y lindos y hermosos que siempre dan, pero aquí estamos viendo que precisamente no tenemos eso listo.

00:41:12:03 Muy bien, así podemos hacer pruebas de y de de para revisar como la los ajustes de bondad de un modelo. Lo lógico específicamente los o son los utilizamos para noche para ese análisis del rock, lo podemos utilizar para login y probar y poder analizar cuál es un modelo que se ajuste mejor, siendo los modelos muy parecidos. ¿En esto hay otro tipo de cosas que podemos hacer, como un análisis de sensibilidad, que es esto que podemos tener acá?

00:41:41:27 Esto no se los voy a explicar porque esta es una tabla de contingencias que lo pueden revisar, lo pueden mirar. También nos ayuda a mirar. Nosotros esperamos que esto, este, esta correcta clasificación esté superior al 70% en un modelo, y esto también son análisis que nos ayudan a ser como las revisar si ese modelo está bien ajustado, no si está bien explicado, si no, entonces bajo estos estándares de esta clase con top cero puntos cinco, generalmente 0.59 es lo que utilizamos.

00:42:09:19 Entonces podemos analizar esto, pero no voy a entrar mucho en este detalle porque digamos que esto sería otra clase. Entonces, pero si lo quieren analizar, lo pueden ver para mirar como es la explicación de esto. Y esto tiene que ver también con los odds Range List. ¿Entonces para que lo vea, porque por falta de tiempo vamos, vamos un poquito cogiditos, esto va a cerrar acá y simplemente con el provider vamos a hacer lo mismo, cierto?

00:42:37:02 Vamos a tener con el voy a quitar bien, porque tenemos el problema, he ahí simplemente el bit. Vamos a hacer el comando, vamos a tener el el comando pro bit más nuestros, nuestros, nuestras variables explicativas que funcionen la misma manera. ¿Y si quiero mirar en márgenes, pues lo hago de la misma manera, cierto? Entonces miren que oye, aquí vamos a tener una precisión mejor de la profesión.

00:43:19:27 Por ejemplo, miren que el PL ya nos dio significativo. El ambiente universitario sigue siendo sigue teniendo estos problemas, Me faltó la edad que me falta, la edad, pues vamos a correr con ella, vamos acá con edad. La edad puede tener también algunos problemas. Listo. Miren lo que me puede estar haciendo ruido es la edad, por ejemplo, esto. Entonces ahí podemos hacer ese análisis bien y lo que nos interesa del provee también los signos.

00:43:57:13 Cuando tenemos los coeficientes y el el análisis marginal. Cierto, porque esto es una derivada. Ya podemos hacer el análisis con esta información. Listo. Si queremos hacer un rock, también podemos hacer un rock. Si podemos y queremos hacer este, por ejemplo, estimar y el análisis de sensibilidad de todas esas cosas los podemos tener. Quiero mostrarles acá que esto también lo podemos hacer una vez corremos el miren es un modelo que se ajusta un poquito.

00:44:41:18 Miremos sin la edad y miremos la edad como funciona. Nota Tasa rock Si se aumenta un poco más lo haremos este también un dura incluso quitando la edad, el rock es peor si se es. Y acá no tenemos un análisis importante para el contexto. No quité porque es que tengo un problema en el quite género, porque tengo un problema con el género, no le tengo, lo tengo que limpiar porque me aparece un dato por allá de -99 Y la profesión es una escala.

00:45:29:23 Sí, pero es una escala grande. Tiene más de diez datos de datos, entonces lo tomo como una variable continuo. Esto puede ser ya perfecto. Otro comando que les quiero enseñar, por ejemplo, si queremos hacer este que vamos a hacer es que hagamos el utilizar el este, el estimado Stuart Blodgett, para que los podamos ver los dos. Luego hacemos este y hagamos este y entonces con esta información, con este comando puedo tener la ambos, tanto el Logic como el Pruitt, para poder mirar cuáles son sus diferencias.

00:46:05:03 Si, miren que este me está haciendo menos en Logic, me está haciendo menos estimaciones que en el PRO y podemos ver que son muy parecidos. ¿Miren que los valores de los de los coeficientes en este caso si de los estos no los los efectos marginales son muy parecidos y lo que aquí veo y entonces puedo mirar la relación entre ambos cuando ustedes quieran hacer la presentación de sus resultados, pues aquí pueden hacer la comparación entre lo tiempo de esto, eh?

00:46:37:25 ¿Bueno, va a leer preguntas cuánto debe dar el área bajo en la curva para hablar de un buen ajuste del modelo Smart, eh? ¿Del 0.70 para arriba? Eso sería un buen ajuste del modelo. ¿Es valido usar el house para seleccionar variables al momento de construir modelos multi variables? ¿Si no es así, que opciones serían en la USE? Es importante, sí que sería el mismo aquí que el mismo acá y que lo puedes utilizar y ver para evaluar variables y ponerlas en el modelo.

00:47:08:26 Si señor, y sirve para mirarlo entre los dos modelos, tanto en el oye como en el PRO, y el que sea más eficiente es el que terminas utilizando en la calle. ¿También te sirve para esa clase de esto, eh? No, tú puedes incluir cualquier tipo de variable que quieras, no hay ningún problema. Lo único que tienes que tener cuidado cuando incluyas variables categóricas es ponerle el punto.

00:47:39:01 Sí, el y punto, que ahí se los estoy compartiendo para poder que el ponga la base y puedas leer la probabilidad. Sí, porque esto es una probabilidad. Entonces vas a mirar la probabilidad como por acá. Cuando veíamos este valor, el de el de hombre, el de género, cierto, miren el de género, el coge uno así, en este caso el toma siempre el primero, es decir cero y con base en cero.

00:48:07:27 Entonces es que realiza la estimación de el los siguientes dos. Si en este caso es problemático y tenemos problemas con los datos, pero esto es lo que ocurre y entonces mira que aquí es muy importante como lees, es la probabilidad de esto. Con respecto a la probabilidad de esto, si fueran más categorías, tienes que utilizar el y punto, y si utilizas el y punto, seguramente vas a tener ese análisis desde y vas a analizar.

00:48:31:28 Pero es que aquí el por el problema, el análisis que tienes que analizar esta probabilidad con respecto a cero, por ejemplo. Y esa probabilidad ya miras la intensión. Emprendedor sí, pero es simplemente en el análisis. Mira que el sistema inmediatamente te va a dar esos valores. Esto y te los va a discriminar en este caso. Uno hombre dos mujer esto.

00:49:04:04 Si tuviéramos solo hombre y mujer, entonces él coge base y lo mira con respecto a mujer, entonces ese es el análisis. ¿Si tú vas a decir listo, aquí estás viendo a las mujeres, cierto? Entonces ante un aumento de de una mujer adicional en tal trata la probabilidad es este y el contrario sea la resta. Esto sería hombre. Entonces eso es lo que hay que tener cuidado con cuando se haga ese tipo de análisis que cuando incluyas una variable categórica de esto.

00:49:54:16 ¿Más preguntas? Bueno, no sé, se ponen las preguntas respecto a la interpretación simple. ¿Hablamos de puntos porcentuales o se habla? Siempre hablas de puntos porcentuales. ¿Tú no estás mirando un porcentaje, tú estás mirando puntos porcentuales, eh? Martha Luis nos dice cuando uso uno o el otro depende de lo que quieras mirar. Yo siempre sugiero utilizar los dos. ¿Por qué?

00:50:29:22 Porque cuando tú estás haciendo el análisis de tus variables. Luis, mira que cuando estás haciendo la interpretación de un logístico, de un de un modelo logístico, te puede ayudar a mirar cuáles son esas variables que te sirven o no bajo todos estos ajustes de bondad que estamos haciendo y bajo en la interpretación de los Odd Strategy. ¿Si cuando ya tú haces el análisis entre uno, el otro ya mira si es un tema de eficiencia, cuál es de los dos modelos más eficientes?

00:51:01:14 ¿Pero cuál te va a ayudar a cómo poner el el estándar de esa eficiencia? Un modelo lodge listo. Aquí lo que nos interesa mucho es la eficiencia del modelo. Y entonces, una vez hacemos todas las pruebas en el lodge, correr un proveído es muy fácil y hacer el análisis entre los dos para mirar cuál es más eficiente. Pero generalmente son muy parecidos los resultados list.

00:51:36:26 Listo. Muy bien. Bueno, no sé si hay más preguntas, sino ha sido un placer que darles esta charla el día de hoy. Un muy contento de conocerlos. Gracias. Camilo. Sí, creo que no hay más preguntas en este momento. Voy a dejar la encuesta en pantalla para que las personas nos puedan apoyar con el diligenciamiento de la misma se utiliza.

00:52:04:25 Perdón que voy a responder una una pregunta que acá si las variables tienen transformación logarítmica, afecta los resultados. Si tu variable dependiente no puede tener alguna, una transformación logarítmica, eso es clave. Ahora si la tienes en de las variables independientes. Andrés, cuidado con la interpretación, eso es lo más importante, las investiga. Cuidado con la interpretación si puede, pero cuidado con la interpretación.

00:52:45:12 Cuando hagas esas transformaciones. Muy bien, cristaliza. Gracias. Creo que ya. Ahora sí, no hay más preguntas. Ninguna. Muchas gracias a todos los asistentes por acompañarnos en el chat. Dejé también el enlace por donde podrán encontrar esto. Hay otras presentaciones relacionadas con estatus y los espero en una próxima oportunidad. Bajar unos minutos más la encuesta en pantalla para que ustedes la puedan diligenciar y les deseamos un feliz resto de día.

00:53:07:09 Camilo Muchas gracias, Gracias, Gracias Luisa, que estés bien, con gusto. ¡Feliz día! Para mayor información respecto al software o en temas relacionados, no dudes en contactarnos a través del correo electrónico, entrenamientos a software, guion, ya.com o visitar nuestra página web Triple Ole o punto Software Guión Ya.com.

Stata 18: Trabajo con modelos logit y probit


Los modelos Logit y Probit son valiosas herramientas para el análisis de datos, puesto que permiten conocer las relaciones entre variables categóricas y variables explicativas en investigaciones de diversas áreas del conocimiento. Estos métodos ofrecen estimaciones precisas y confiables, lo que los hace esenciales para entender y cuantificar relaciones en datos categóricos y responder a preguntas clave en diversas disciplinas.En esta presentación abordaremos las herramientas con que cuenta Stata para llevar a cabo estos procedimientos, los resultados y su interpretación.

Etiquetas relacionadas

  • Análisis de datos
  • Educación
  • Investigación

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar