Trabajando con datos panel en Stata
Autor: Mario Antonio Vera Delgado / Portafolio: Quantitative / Vie. 26 de Abr de 2024
Transcripción de este video
00:00:38:00 El día de hoy contamos con el acompañamiento del instructor Mario Vera Delgado, Ingeniero Comercial, Licenciado y Magíster en Economía de la Universidad de Concepción en Chile. Actualmente se desempeña como analista Senior de la Dirección General de Estudios de la Comisión para el Mercado Financiero de Chile y como docente. Economía en la Universidad Santo Tomás de Santiago y para el Diplomado en Análisis de Datos Estadísticos Sociales de la Pontificia Universidad Católica en su país.
00:01:11:04 Adicionalmente, hace parte del Grupo de Instructores del Portafolio Cuantitativo para Software SAP. ¡Bienvenidos! Voy a comenzar para cuando ese lugar ya me presentó Erika y vamos a compartir que hoy día vamos a tener próximamente una hora de duración de este webinar en el que vamos a estar trabajando con los conceptos básicos de datos. De manera que la construcción de la EH de los comandos que se utilizan para poder emplear el software ahí que me van diciendo si me pueden ir escuchar bien al menos el video.
00:01:37:22 Y ahora voy a probar compartiendo la pantalla ya para mostrar la presentación y también, eh, fundamentalmente vamos a estar con la presentación y en algunas ocasiones vamos a a mostrar ya también el el software estata y el código para que lo podamos ir viendo en simultáneo ya y de esta manera vamos a ir explicando un poco los conceptos, así que me me comentan ustedes.
00:02:03:16 Yo hasta el momento los veo bien. El chat lamentablemente lo veo en la misma pantalla que eh donde tengo el que estoy compartiendo, así que que ah, no lo podemos esperar, así que súper bien por. Por tanto, las cámaras como como el chat por separado, lo que es bastante útil en caso que escriben o si no, Erika y los demás que nos están asistiendo nos pueden apoyar ahí.
00:02:26:21 ¿Ya en el chat veo que eh se está, se puede decir que también se de la tienda PPT a las que ya han no entender estos conceptos, no? Un poco la la agenda y me voy a Voy a dejar un formato de presentación. Entonces creo que hoy día vamos, vamos a ver el el la introducción a los datos de panel y a sus características.
00:02:51:22 Entonces vamos a avanzar en en algunos ejemplos de de bases de datos de panel. No quiere decir que lo vamos a cubrir todo y depende un poco al al área al que ustedes se dediquen, qué tipo de datos uno puede acceder, pero hoy en día hay una disponibilidad enorme de de de posibilidades para eh para acceder a este tipo de datos, ya sea de encuesta o de datos a nivel de país provincial o regionales de de cada país.
00:03:17:20 Luego vamos a Vamos a hacer técnica y descriptiva y gráfico en en datos de panel. En este caso vamos a estar pensar inicialmente en en gráficos de línea para mostrar algunos ejemplos que son que son útiles a partir de los ejemplos más tradicionales que tenemos disponible. Luego vamos a ver los conceptos básicos de estimación en panel el modelo agrupado, que es simplemente el modelo de mínimos cuadrados ordinarios estándar en una regresión múltiple.
00:03:43:28 Y como lo que lo podemos utilizar EH para para poder hacer comparaciones lo vamos a usar como una referencia, como modelo para los modelos tradicionales de panel estático. Lo que vamos a ver hoy día son, eh, modelos de panel estáticos y en ese sentido vamos a pensar en el modelo tanto de efectos fijos como de efectos aleatorios y sus variaciones, sus comparaciones respecto al modelo agrupado y también una comparación entre ellos.
00:04:13:01 Para ir concluyendo, eh al final de esta sesión, que son lo primero que quería señalar. ¿Entonces, habiendo dicho esto, aquí tenemos algunos datos y vamos a ir mostrando algunos de estos, eh? Por ejemplo, hasta las series que provee el Banco Mundial, uno podría pensar muchas ventas se alimentan, eh, a partir de los datos que provee el Fondo Monetario Internacional, pero también otras fuentes de información, y ahí ustedes pueden ir a la página de datos del Banco Mundial.
00:04:35:00 Ya no necesariamente la buscan en español, puede que la quieran buscar en inglés. El comando Se creó un un comando que que preparó la la gente del banco no que ellos tienen todo un repositorio donde comparten información y donde también comparten buenas prácticas van a estar exponiendo en la conferencia anual de Estata que se desarrolla en Estados Unidos.
00:05:02:04 Portland es la sede este año y ya salió ayer. Antes de ayer salió el programa y esta gente del Banco Mundial que diseñó este. Este comando va a estar exponiendo para poder dar a conocer varios elementos que son muy útiles para trabajar con distintos datos. Pero en particular esta es una fuente muy habitual para ver, por ejemplo, eh, paneles de datos a nivel de países son datos anuales en general, pero también hay de otra frecuencia.
00:05:31:2 También tenemos datos administrativos. Acá estoy pensando en el caso chileno en en los datos de de la Superintendencia de Pensiones ya eh de y ellos tienen distintas fuentes, distintos tipos de datos a los que uno puede acceder ya registrándose un registro bien fácil. Ya para poner el correo ya puede ver a las personas en nómina en el tiempo y entonces hay una información muy, muy rica que se comparte en distintos países.
00:05:55:17 Por ejemplo, uno podría ir al EH a la base de datos que tiene el Banco Central, el Banco de España, ya que de hecho vemos el así como del registro la central de balance le llaman ellos, que es como un poco el registro de deuda de la empresa, los activos, los pasivos. También tenemos, eh, un base de datos relativamente financiera, eh distintos repositorios que que contienen información que muy muy útiles podrían ser.
00:06:17:01 No sé, el precio de las acciones o tasas de interés que van pagando los bonos de empresa y uno podría ahí sacar, por ejemplo, los datos de panel más financiero. Hay distinto elementos que uno podría utilizar con distinta frecuencia. Por ejemplo, cuando uno piensa en precio de acción, uno piensa en días hábiles cuando son datos administrativos. Típicamente estos son datos mensuales, trimestrales.
00:06:42:10 Hay datos administrativos que tienen poder. Puede tener una mayor frecuencia, pero pero menos habitual en los datos que se comparten públicamente. Por el lado de las encuestas, aquí mencionamos arriba, no es la única, pero está el general, el Social Survey. En Estados Unidos también hay para Canadá hay encuestas similares en Europa y uno puede, eh, inscribirse en la página web, descargarlo.
00:07:18:00 ¿Muchas de ellas por lo general está disponible en esta Descargar la página o lo vamos a mostrar? Yo no, no, no quise hacer hoy día con ello, pero uno puede descargar, eh, estos datos. En el caso de Chile, nuevamente tenemos la nuestra protección social, de ahí no sé si el link no, fíjese el instituto eh indicando el último link como usar una cuenta protección social, una versión un poco más eh, más antigua pero que nos va a ser útil para poder ilustrar un ejemplo muy sencillo que queremos, que queremos emplear porque son datos laborales, historias laborales que son sumamente útiles, sobre todo en en microdatos.
00:07:45:08 Pero por eso, como pueden ser un dato a nivel un poco más macroeconómico, más financiero, más de encuesta, más del lado laboral, hay muchos ejemplos que uno puede emplear y que son útiles para que, para que todos podamos ir utilizando. Entonces vamos a partir por algún ejemplo. Ahí está el enlace de del Banco Mundial y ahí en el bloque de ellos también como como han ido haciendo mejoras, de hecho, eh, si ustedes descargan aquí les muestro, ya les muestro el.
00:08:12:00 El comando que ustedes pueden descargar se llama Pueden escribir acá este es este Esto porque ve o con data yo ya lo hice, pero esto no lo voy a correr. Pero si ustedes corren esto van a a poder descargar en estos eh en sus computadores este comando del Banco Mundial. Y la gracia es que es un poco más elaborado porque queda como un EH eh, como un comando de de estata.
00:08:31:21 Y ustedes creen el comando TV. Eso le permite encontrar ustedes la ventana. No todos los comandos que uno descarga en línea crean una ventana interactiva con la cual uno puede trabajar. Entonces, después de ver sobre el Open Data, ustedes pueden, eh, ahí lo está descargando. Se fijan ahí se van a poder ver que se despliega. ¿Entonces ustedes son ahí cómo quiero esto?
00:09:09:07 ¿Por ejemplo, yo puedo escribir acá en español que que series quiero, entonces qué países quiero? Y entonces ustedes pueden elegir el país que a ustedes les parezca. ¿Por ejemplo, vimos alguien que estaba conectado desde México, sea no sé, por ejemplo ustedes pueden buscar a México y eso puede con ello, sencillamente pueden en en que está bien eh? ¿Entonces ahí, ahí uno puede colocar distintos países y uno puede escribir aquí los acrónimos ya entonces probablemente sea h h en ese H Chile se hn en el caso de China, de de Colombia, de Perú o de países de Latinoamérica, que hacer eso no quiere cargar todos los datos ya eh?
00:09:35:17 O datos por área datos más financieros más eh sociales, estadísticas de salud, lo que ustedes quieran o por algunos tópicos en particular. Fíjense Economía y Crecimiento, Educación, Energía y Minería, Medio ambiente, Sector financiero, sector sanitario, de infraestructura. Ya eh, Protección social y mercado de trabajo, de pobreza, sector privado, sector público, etcétera Tienen un montón de herramientas y ustedes pueden ver en la descripción de datos.
00:09:51:12 Uno no se sabe toda la. No todas las variables tienen la misma frecuencia. Por ejemplo, voy a hacer mi. Voy a utilizar un ejemplo en donde voy a descargar datos de la tasa de suavización, pero ahí no hay datos todos los años. Entonces va dependiendo un poco del tipo de dato que uno quiera descargar respecto a qué frecuencias tiene.
00:10:19:01 Por ejemplo, esta encuesta de educación financiera que hace el Banco Mundial tiene cada tres años, cada año el el fin de que ellos preparan. Entonces, dependiendo del tipo de dato es la frecuencia que uno va va a utilizar. ¿No estoy diciendo que estos sean datos por países, son paneles, pero por microdatos probablemente esto no sea panel, no? No necesariamente se encuestan las mismas personas para ver eh como como están los datos, ya sea para que para que lo podamos ir viendo.
00:10:39:00 Entonces aquí yo les recomiendo que. Pues vamos a hacer un ejemplo con estos datos del Banco Mundial, ustedes van a ver que tiene el código. Tengo, eh, estos datos y yo simplemente no, no, no lo uso, no lo uso con la ventana interactiva, pero les recomiendo que puedan practicar con esto y el día menos del para que puedan entender como como la lógica de los datos que podemos usar ya.
00:11:11:03 Esto, eso quería señalar en primera instancia esto Voy a volver sobre sobre los datos del Banco Mundial. Ya, pero creo que algo que que es muy útil. Inicialmente los datos solo estaban en formato web, implicaba que uno tenía que utilizar el comando reshape y yo lo voy a utilizar en un par de láminas. ¿Esto probablemente la gente que ya tiene más experiencia con los software eh lo ha hecho, que es transponer parte de los datos, no es transponer toda la matriz de datos de entrada de de estata, pero sí permite esto trabajar los datos en formato no?
00:11:35:06 Que es lo habitual, que uno lo puede emplear en cualquier software econométrico estadístico para poder hacer datos de manera. Esto ya sea en libros que pueden ver los videos que softwares que exponen esto, pero también para datos de manera y los datos también en los distintos software tienen que estar en formato link hacia abajo. ¿Para qué? Para que podamos trabajar con los comandos de datos de panel y aquí en particular en esta hoja, que es lo que vamos a hacer ahora.
00:12:13:02 Aquí está los datos administrativos de la Superintendencia Nacional. ¿En Chile está un poco antigua, entonces ustedes podían ver la cartera de los fondos de pensiones en formato mensual, eh? Ustedes podían ver cómo iban cambiando las inversiones de los fondos de pensiones en Chile. Después se pueden descargar también en formato mensual. También está la de la documentación de cómo se describen, en que lo que invertía los fondos de pensiones en Chile EH son relativamente grande en comparación a otros países de Latinoamérica respecto al PIB, a pesar de los retiros que tuvimos los años 2020 2021, estamos en torno al 60% del PIB de Chile, están los activos, los fondos, pensiones o era bastante, pero.
00:12:39:14 Pero de todos modos es un activo determinante en el sistema financiero de Chile. Uno puede ver como como ha ido evolucionando los distintos tipos de activo y por y por AFP, los fondos de pensiones. Luego está la la historia previsionales de los afiliados y parte de esta historia se pueden incluir con. Se pueden contar con los datos de la encuesta Protección Social que algo que voy a usar y voy a describir en una lámina más adelante.
00:13:03:08 Ahí está un poco la descripción de lo que tenían hace un par de años estos datos de la Superintendencia Nacional. Los datos se descargan en formato CSV, pero uno lo puede leer fácilmente desde cualquier software en particular. Está dependiendo ustedes lo que es la capacidad de que tengan en sus equipos personales sus laptops van a poder en en cargar estas bases de datos que son una muestra representativa de muestras aleatorias representativas de los datos de la Superintendencia Nacional.
00:13:25:16 En el caso chileno les mencionaba, ahí están los datos de la General Social Survey en Estados Unidos. Esto lo mantiene la Universidad de Chicago desde hace más de 50 años. Ya el año 1972. Entonces, una parte de un estudio continuo de la Unión Publica Estadounidense y los valores que comenzó en el año 1972, recopila información sobre la sociedad estadounidense.
00:13:54:12 Ya, eh, eh, y permite, eh, explicar las tendencias, la actitud y los comportamientos, comparar la sociedad con otras sociedades del mundo. Se invita a menos de de 5000 estadounidenses a responder esta encuesta. Cuando participa se asegura que se escuche su voz y aquí hay versiones de panel. Ahí estaba 2010 2012 en 2014. Si ustedes quieren ver a los mismos individuos encuestados en el tiempo y la presión es de corte transversal, hay muchas personas disponible para ustedes.
00:14:16:27 La pueden ir explorando si están interesados. Un dato más de de de de Ciencias Sociales hay buen trabajo que hay disponible y es muy muy útil de mucha más. ¿Sé casi mil variables para que puedan ustedes ir utilizando y uno puede ir comparando cómo van evolucionando estas variables de la encuesta en el tiempo, eh? Lo que le mencionaba las encuestas de Acción Social de Chile.
00:14:41:07 Esta es una versión antigua, el pantallazo lo estoy mostrando ahí se ha ido construyendo en el tiempo y utilizada en información ya eh de y esta se puede combinar con la historial de de personal de afiliados Activo personal fallecidos que dispone la. La Superintendencia de Pensiones. Pues uno puede juntar hacer un mes como le diríamos el Estado, a fusionar bases de datos y agregar información administrativa.
00:15:09:07 Desde que se creó el sistema de pensiones en Chile, que en 1981, porque la encuesta se empezó a hacer el año 2002, entonces uno tiene un historial bien, bien rico de cómo ha ido evolucionando en el tiempo, ya es un conjunto de personas en en Chile y esto es típico que se pueden obtener en distinta economía. Es muy, muy útil para describir los mercados laborales, cómo han ido evolucionando en el tiempo, cómo han ido evolucionando las relaciones laborales y ese tipo de información que es muy, muy importante.
00:15:31:24 Entonces ustedes pueden ver esto como quiere ser el acceso, un poco de cómo se puede pedir el acceso esta encuesta datos así una muestra de individuos desde desde el año 2002 se puede utilizar con. Se pueden usar contratos administrativos. Podemos usar en un ejemplo la la versión del año 2009 simplemente para ilustrar ya. ¿Entonces eso es lo que lo que lo que vamos a hacer para que ustedes lo puedan, eh?
00:15:48:17 Lo que para que lo puedan mirarlo. Ahí se me repite un poco lo lo que está un poco la descripción de las distintas bases de datos que que están disponibles están datos del entrevistado y lugares. Y nosotros hoy día vamos a hacer un ejemplo particular con la historia laboral del encuestado en el módulo de de de la encuesta del año 2009.
00:16:03:18 Con eso vamos a trabajar para que ustedes lo puedan ver, pues eso es lo que vamos a usar en la historia laboral. Vamos a preparar la base de datos y vamos a hacer un análisis básico de los datos de panel ya. ¿Así que en la medida que van saliendo preguntas por el va a seguir escuchando esto? ¿Ninguna pregunta, eh?
00:16:29:15 De lo que hemos ido viendo ya si hay más datos y algo que ustedes quieran, eh preguntar, pero vamos a estar disponible para que ustedes los vean irse a Se muestra un poco los datos eh, que vamos a emplear entonces aquí vamos a Vamos a describir algunos comandos que son útiles para trabajar con esto. Entonces aquí quiero invertir un par de láminas, dos láminas con respecto a como soles, la variable el tiempo.
00:17:01:08 ¿Entonces reitero como esto los datos, los datos de panel eh? Nosotros vamos a seguir a país eh, individuo en este caso persona empresa eh, firma lo que queramos en el tiempo ya acciones, bonos, lo que queramos en el ámbito que queramos pasarlo de la unidad de observación se van a ir repitiendo en el tiempo. ¿Entonces es importante entender cómo son la las variables temporales, como definimos las variables temporales, cuál es la frecuencia que tienen en, en, en, en general, pero como les la mira el software?
00:17:31:01 Entonces si ustedes están usando datos diario por defecto estata eh el toma entero para describir las variables temporales y esto entero tienen como pivote el año 1960. Si son datos diarios ya se parte en el primero enero 1001 de 60 valor cero y de ahí en adelante si es semanal. La primera semana 1960, el valor cero, la uno, la segunda semana mil veces antes de en adelante, el primer mes mes cero en el software de enero 1060 se usan datos.
00:17:51:24 ¿Previo a ello va a ser menos el dato negativo ya eh? Entonces, por ejemplo, yo voy a mostrar un ejemplo con datos mensuales, entonces los datos van a estar con un entero que muestra y el formato en que se van a visualizar, por ejemplo 1009 60.001. Por ejemplo, ahora que estamos en 2024 sería abril, M4, septiembre. Datos trimestrales se van a mostrar con 1061 color.
00:18:02:19 Ahora sería el segundo trimestre, Abril ya pertenece al segundo trimestre del 2024, ese sería 2.024,2 ya.
00:18:37:27 Lo mismo para datos semestrales, entonces ahí tendríamos el formato sería TH para datos anuales cambia simplemente usar los cuatro dígitos y ustedes si mira las limitaciones que tiene esta en este momento nos permite pasamos del año no es 9999, pero me imagino que la mayoría de los que vamos a estar trabajando en esta presentación no estamos tratando de, por ejemplo, hacer una proyección más allá del 9999 si estamos interesados y habría que hacer alguna variación o utilizar otro formato que para que funcione bien, si quieren hacer alguna predicción más allá de.
00:19:17:24 Había una pregunta y en el chat entonces eh, ahí están la la. Al escuchar la grabación como lo lo mostraba Ibérica. ¿Gracias por por ir mostrando todo esto eh formato ya eh? Entonces vamos a vamos a ya eh, vamos a ver, como si ustedes quieren convertir entre variables temporales antes de trabajar, es importante que tenga presente que para poder convertir, por ejemplo de datos mensuales a trimestrales, necesariamente tienen que pasar por el por el pivote que en para poder trabajar con funciones del tipo fecha y para eso hay que pasar por el dato diario.
00:19:41:16 Más adelante yo voy a mostrar un par de ilustraciones con esto que van a ser útil. Entonces si yo quiero hacer una conversión, necesito necesariamente se quiere pasar de datos mensuales, ya reitero, a datos trimestrales tengo que pasar necesariamente por datos diario. ¿Esto es importante para aceptar, eh? ¿Esta tabla la saqué de alguna presentación de que había hecho una persona de de la Universidad de Stanford, eh?
00:19:59:11 Y esto nos permite como poder ir haciendo y conversiones de fecha para que esta tabla vea bien y realmente como nosotros vamos a trabajar con datos de manera todos los operadores de series de tiempo, ustedes pueden ver los webinars que hay público que que ha hecho software sobre acerca de de series de tiempo. Usted mismo no trabaja con series de tiempo.
00:20:25:12 Por ejemplo, uno trabaja con operadores de rezago, con operadores de diferencia, con operadores de adelanto y bueno, todos esos operadores para que funcionen tenemos que haber declarado la base de datos en EH formato en el formato fechas correspondientes. ¿Es un dato diario, mensual, trimestral y anual en lo que queramos, pues tiene que estar bien hecho para que? Para que operen de y para que puedan funcionar los operadores de de series temporales.
00:20:49:27 Okay. Habiendo dicho esto, nos vamos a, eh, a los comandos típicos ya para trabajar con datos de panel. Lo primero es pensar en la función en el sistema, en esta, en este comando. Si que permite convertir datos que están en formato ancho a largo y viceversa, y tiene opciones dependiendo como que los datos. Ahí vamos primero en la siguiente lámina vamos a detallar esto.
00:21:15:14 Luego usamos el comando de vista set que permite declarar cuáles son las variables que representan al tiempo y a los individuos en la base de datos. ¿Luego Xtend Script, que permite ver una descripción si con el estado de balanceado o balanceado de que este zoom permite ver variaciones en el tiempo en los individuos, se permite hacer una estadística descriptiva pero en formato de panel eh?
00:21:43:07 Es como el sumar a veces que uno hace en para una base serie de tiempo en corte transversal. O sea, es lo mismo pero aquí adaptado a datos de panel. ¿Por eso todas estas variables que son eh específicamente para datos de panel, entonces comienzan con qué prefijo? Con el prefijo xt xt. Entonces el prefijo fi para la mayoría de los comandos de de datos de panel, incluso la los comandos que que la comunidad ha ido añadiendo a lo que el software trae por defecto.
00:22:07:00 Típicamente comienzan con XT ya hoy que te permite ver un tabulado para variables categóricas discreta ya entonces no tiene sentido que uno haga un zoom con una probabilidad de una variable discreta Ya entonces en ese sentido, ahí es mejor utilizar el que te está aquí te permite ver las las probabilidades de transición. Y aquí está el link. Permite ver el gráfico del de línea para cada uno de los individuos que son.
00:22:26:13 Si vamos a mostrar un par de ejemplos con esto en en en el en el software. Ya sé que para que lo tengamos aquí eh presente, entonces aquí vamos a hacer un ejemplo, que esto va a ser el también lo lo tiene la página de de de Princeton, donde hay algunos ejemplos aquí, ahí los datos para que no tengan que descargar una base de datos.
00:22:48:21 Que no, que no conozcamos. Entonces si ustedes hacen una carga en esta base de datos, simplemente repiten este, esta línea de código también. Este es el código que yo tengo precargado en el ejemplo y ustedes descargan estos datos que están en línea. No, no hay que descargarlo, no hay que hacer un download. Esto lo lo descarga automáticamente el software de datos se basa en el uso de de este directorio que estoy compartiendo.
00:23:06:09 Ahí lo usan doble comilla porque subir algún espacio, un doble comilla ya no lo va a hacer bien sin arrojar error y con el comando final como anterior para que borre si es que han cargado la RAM, se los va a mostrar cómo están cargados los países y vienen aquí porque otros países de Estados Unidos y México y viene el PID.
00:23:37:29 ¿El nombre del acrónimo del PIB en en en inglés es Drive, no? Aquí están los datos para el año 2017 2018, 2019, 2020, 2021 y para Android ya para para comercio, también para los mismo año. Entonces muchos, muchas bases de datos vienen así. Así venía originalmente lo que yo les mencionaba. El comando original de del Banco Mundial desplegaba los datos en formato horizontal, o sea, uno descargaba una serie que venía en la misma variable para distintos años.
00:24:00:07 Va a ser uno descargado. Datos de de la OCDE dan para no necesariamente estadísticas solamente para los países que pertenecen a la OCDE. Y muchas veces los datos vienen hacia en en el tiempo vienen, nacen en años. Típicamente lo que piensan que los datos de la OCDE vienen los años en de manera de de manera en las columnas ya de manera vertical.
00:24:24:22 Entonces no hay mientras más columna y más años tiene los datos. ¿Entonces, para que? Para que nosotros podamos utilizar los datos de panel, tenemos que pasar esto a los formatos. Bueno esto hay que usar el comando. Entonces con la opción long, ejemplo no voy a subir en este caso long eh de de la variable. Fíjense, usamos el prefijo, el prefijo este dividí otra vez.
00:24:53:08 Aquí hay dos variables ya entonces eh se escribe el nombre de la o las variables que que se repiten en el tiempo. En este caso tenemos JIB o GRP como como sería en el en en el prefijo de PIB de cada uno de estos países y del comercio de street. Ya suscribimos aquí eh GBP el perdón. De hecho ahí coma entonces la coma necesariamente en el y representa el indicador del grupo.
00:25:15:23 En este caso, el indicador de grupo puede ser va a aquí. Aunque por ejemplo, si tuviéramos eh, este trabajo sería homogéneo, pero uno podría tener más de una variable en en el link, no así en el J para el el toca va a ser el año. Sabemos que aquí es año, se va a llamar Giga. Podríamos haber puesto acá año con con N porque ya permite que usemos la Ñ las versiones actuales del software.
00:25:35:12 ¿Pero bueno, que uno por si después le produce algún problema en una versión posterior eh? ¿No es bueno que usen eh? Variable muy españolísima como la Ñ ya, letra muy españolísima, porque a veces tiene problemas cuando uno va, va cambiando de versiones de de software, pero pero hoy en día esto lo hace bien.
00:26:00:01 Pues ustedes están usando alguna versión antigua del software. Primero aquí los invito a contactarse con las personas que me acompañan de esta para que ustedes sepan como licenciarse en una versión más nueva. Ya. Pero pero es importante que tengan esto ya de de cómo le vamos a llamar el año que le vamos a llamar Simplemente guía, pero podría tener cualquier otro nombre de capital esta variable que ya ya existía, pero sí que no, no podemos cambiarle el nombre.
00:26:26:29 Entonces, y reitero, representa al grupo, en este caso al individuo, la provincia, país o cualquier otra entidad que que represente a los individuos Ya y J representa al indicador dentro del grupo, en este caso año. Vemos frecuencia que corresponda que los datos que ustedes estén empleando, excepto cuando ustedes hacen esto, cuando hacen el resultado de haber hecho ustedes esta esta opción permite que los datos pasen de estar de formato ancho a estar en formato largo.
00:26:53:19 ¿Por eso aquí es que decíamos que raro no? Y ahí van a ver que el resultado, el resultado de lo que vamos a hacer, que de esta manera. ¿Pero por qué? Porque teníamos para todos los países un dato del 2017 al 2021 con estos cinco datos, cinco años para estos tres países, entonces quedamos con EH, con 15 filas, habiendo pasado reitero, de la lámina anterior de tres filas ya eh, un montón de variables hacia el lado.
00:27:21:27 Por ahí nos quedamos con menos variables, sea el lado de la menos columna y más fila. ¿Y esto es lo que nos permite trabajar, eh? Con los datos ya habíamos mostrado que bueno que para poder declarar, ya para poder declarar una serie de tiempo para que podamos hacer cualquier comando de serie de tiempo de envío de imagen pegado un poco arriba, acá van tapando un poco lo que dice este bullet, este en el ejemplo que utilizamos para el vamos a vamos a intentar declarar las variables que representan el tiempo.
00:27:50:05 Para eso existe el comando xt set. Pues aquí, eh, aquí eh eh, el la estaba viendo mi nombre, el chat. Pero pero si ustedes miran lo que lo que es, lo que aparece ya no es lo que aparece. Si yo digo X y. Arroja un error. ¿Por qué? Porque. Porque no permite que yo utilice como como descriptor de del individuo una variable que está en formato string.
00:28:14:11 Entonces si volvemos a la lámina anterior ya se fijan que country está en formato string porque al mirar los datos esto. Este es el explorador de datos, el el editor de datos, el explorador de datos y ahí aparecen aquí con un color rojo café, ya. Esto quiere decir que el nombre del país está en formato string. Aquí lo vamos a ir a ver al al software para que podamos ver el ejemplo.
00:28:43:22 Entonces, si miramos acá los datos ya ya habiendo hecho lo que yo les decía, ya hacemos una descripción de cómo se confi. Aquí nos aparece que está almacenado como una cadena de caracteres de ancho 13 y se c. Ahí está lo que, lo que, lo que estamos haciendo, cometiendo el error se no nos permite hacer esto. Entonces para ello les invito a usar el comando de eh ya y ahí creamos una variable usando la función group.
00:29:19:03 ¿Entonces, qué es lo que hace? Esto Me crea, me crea un contador de casos que tenemos tres países, entonces va a ponerle uno o país dos al segundo país, al tercer país y así si tenemos 100 países va a ser lo del uno al 100. Por ejemplo, si ustedes lo usan, el comando W de Open Data del Banco Mundial, ya ustedes tienen 200 países y agrupaciones de países, entonces comando Ella Group que vamos a crear ya les va a crear un contador y con la opción como label le escribe la etiqueta, entonces va a crear de inmediato la variable del uno al tres que va a estar etiquetada.
00:29:52:08 Es el nombre que tenía de cada país, lo va a poner en la etiqueta, entonces ahí lo van a ustedes como como lo hace entonces bien y le crea el nombre del mismo nombre que tiene la variable, le pone al a la etiqueta, entonces con la list tiene las veces que uno va a ser para Austria, dos para México, tres para Estados Unidos, ya que ustedes van a ver que tenemos dos variables, entonces representan a los países country, ya y n country, aunque esto sea una variable numérica, pero está en azul en el explorador de datos.
00:30:25:01 ¿Por qué? Porque porque es numérica pero con etiqueta ya. Si por ejemplo ustedes ven ahí que el que tiene un número uno para Austria, un número dos para México dos número tres para Estados Unidos, okay. Entonces, si ahora hacemos clic Set para N Country para para el nombre país, pero con esta con número con etiqueta ya ahí sí, ya nos permite trabajar, Ya ahí ya nos permite trabajar con, con, con la variable como serie de tiempo.
00:30:50:13 Entonces uno puede usar comandos de series de tiempo ya cuando se diseñan puestos ahí tenemos ya eh, XT the script. Entonces, por ejemplo, podemos hacer algún gráfico para para los datos aquí esto No, no, no no lo tenía en la tabla de la lámina, pero ustedes pueden ver que ya permite hacer eh algunos. Este script ya permite ver, eh eh, algún análisis y los datos están balanceados.
00:31:16:00 ¿Nos dice que tenemos un delta, una unidad, un año que van del 2017 al 2021, cinco años eh? Y tenemos un delta de un dado, un periodo ya para estos datos. Uno por ejemplo, podrían usar aquí la la la opción line para dividir ya que va a mostrar un gráfico de línea. Si ustedes ven muestra un gráfico de línea por separado.
00:31:35:29 Obviamente no es muy comparable entre países como Estados Unidos. Son mucho más grande que los de Austria y los de México Son muestra del PIB per cápita y muestra los gráficos separados por cada uno de los países. La escala no sabe muy bien porque lo de Estados Unidos domina a lo que tiene el otro país. Ya. Entonces sería mejor si necesitáramos.
00:32:04:08 Sería muy distinto. Si graficamos, eh, lo que está pasando para un solo país y veríamos bastante más variación. Si uno quiere graficar acá. Para un solo país, por ejemplo, sería dividir la mucho más variabilidad. Si, si miráramos solo. Si vemos acá en el country igual a uno para Austria. Si podemos hacer el gráfico de Austria, ahí está el efecto de EH de la pandemia en el Divi.
00:32:10:03 Esto probablemente es el per cápita por los niveles que está tomando.
00:32:31:00 Entonces, eso es un poco lo que lo que queríamos mostrarles para que ustedes lo puedan ir viendo. O sea, eso fue lo que hicimos para poder adaptar los datos ya. Entonces, como yo lo aquí lo había mostrado, tenemos que hacer esta transformación porque no podemos llegar y describir eh, La serie de tiempo no teniendo cuidado nos permite que que sea una, eh, una variable que esté como String.
00:32:56:04 Entonces le invito a que ustedes revisen esto como queda en distintas bases de datos para que puedan ir probando y sepan como identificar Normalmente la encuesta, o sea como de la encuesta. Percepción Social En Chile el la generación ya sabe, en Estados Unidos el identificador viene nos trae un identificador numérico para representar los individuos de tal manera que uno pueda declarar la al al individuo en la base de datos de panel sin ningún problema.
00:33:23:24 Si, si está el en este script que ya le mostré en el código y esto, podemos trabajar con el con este comando y describir los datos con el que ustedes crean. ¿Y esos son los resultados que entrega eh? ¿Entonces vamos a usar distintos ejemplo acá, eh? Les voy a mostrar antes de pasar a la etiqueta ya vamos a empezar a a mostrar un poco los comandos de Open data, que ya ya lo teníamos precargado, ya ya lo había mostrado yo ya lo tengo disponible en el software.
00:33:51:02 Entonces acá voy a descargar, transferir, hacer la. El porcentaje de alfabetización de los países, la esperanza de vida que que tiene este nombre, la esperanza de vida en eh al al nacer ya. Y la población sobre 65 años en distintos países. Ya con esto. Estos son los comandos, los indicadores imposible que que nos aprendamos esto. Esto simplemente lo lo hice buscando en la página del Banco Mundial Ya nadie se podría aprender.
00:34:12:14 Eso sí, ahí está en formato antiguo antes de de estar 17 o 16 en adelante ya no es necesario escribir este triples datos que está ahí en. Para cuando uno escribía un comando en más de una línea, ya no necesariamente eso son algo ya antiguamente en mi cabeza, porque yo aprendí a usar eh esta tabla hace varias versiones ya.
00:34:39:17 Entonces aquí les voy a cambiar nombre, como miren los datos aquí ya están en formato long, entonces viene como como viene cada uno de los identificadores, ya entonces vienen los identificadores, entonces dicen como están eh, las variables que vamos a estar, vamos a estar utilizando ya. ¿Entonces ahí está la variable que como las descarga eh? No, no le va a poner punto porque no, no reconoce un punto la variable, la data a leerla.
00:35:01:22 Entonces ahí está un poco la descripción de cómo vienen originalmente los nombres. Ustedes pueden ver que que significa cada una de ellas cuando descarga el software dice oye, mira esta variable que lo que es es el porcentaje de alfabetización ya para la población de 15 años más en cada uno de los países. Esto está a partir del world de más ligeros.
00:35:31:28 Luego esta variable representa la cantidad de vida al nacer en años. Ya luego esta variable representa a toda la población de 65 años o más respecto al total de la de la de la población. Ya sé que nos muestra como como ha ido mejorando la, la, la como, como verdad, como ha ido, que la la población mayor o los adultos mayores que que porcentaje de la población que son en cada uno de los años le vamos a cambiar el nombre.
00:36:01:16 Ya vamos a para cada una de estas variables para que podamos entenderlo un poquito mejor. ¿Ahí vamos a mostrar, eh? Le mostraría un poco los datos para Chile. Entonces ahí está la esperanza. Ahí al nacer el año 1960, la 57 años en Chile y al 2021, que es el último dato disponible más 78,9 años. Fíjense acá con con el el efecto del COVID, o sea, antes del 80,30 y 6,32.
00:36:30:21 ¿Perdón, y el efecto COVID no hizo reducir lo mismo para entonces, eh? Y eso se redujo al 2020 y me produjo un mal de año 2021. Ahí tenemos el efecto del del COVID, probablemente, digamos, un descenso de la mayoría de los países. Podría hacer una comparación. Entonces ahí, eh, ya se y y luego después tenemos la población sobre 65 años más respecto total de la población y como ha ido creciendo en el tiempo.
00:36:51:03 Por ejemplo en Chile era un 3% de la de la población era de 65 años más del año 1960 y ya vamos en en año 2022 el 13% de la población. O sea, eso como como ha ido creciendo y uno podría mirar otros países para que tengamos una idea de de estos datos. ¿Ya nuevamente aquí lo voy a hacer con error porque?
00:37:09:25 Porque el nombre de los países, fíjense en los países está continente, perdón, el nombre del país paga Aruba y cada uno los países que están. De hecho hay agrupaciones de países de los datos del Banco Mundial. Entonces si yo lo llego y lo hago así va a tener un problema porque que hacer nuevamente no puede estar en este formato que está en string, Ya lo habíamos hecho.
00:37:38:21 ¿Cuál es la fórmula correcta? Crear un un número, entonces crear un número. Este número yo lo llamo no de cada país, no un country número del país. Lo hago con el comando ya los comando group y con esto ya no quiero mostrar la etiqueta porque es muy muy grande. Si desea se lo muestro acá. Le escribo a al country ese que el nombre de la etiqueta se llama ningún concepto de Si hacemos escribimos acá el libro de List.
00:37:44:23 Perdón, label. Este no country.
00:38:09:26 Manager, que son los 166. ¿Hay agrupaciones? No, no, todo lo que están aquí son los que tenga 266 países, o sea, por ejemplo el 48 de Colombia, ya Chile el 46. Para que lo tengamos presente lo que nos va a servir para análisis. Entonces ahí es ven, declaramos el número, el país permite representar esta fuertemente balanceada. ¿Esta base de datos obviamente tiene missing porque no toda esta todo el tiempo, no?
00:38:32:14 Eh, pero, pero pero los datos de los datos nos van a salir, que están muy balanceados porque que simplemente está con missing. Cuando uno tiene datos. Por ejemplo, aquí queremos graficar la esperanza de vida al nacer para Chile, Colombia. La opción overlay nos permite que quiere que haga el gráfico, el que haga un solo gráfico y dos líneas, una para acá para Chile y otra para Colombia.
00:38:48:05 O sea, si aquí de de de los que están participando quieren que grafique en otro país. De ahí como ver el efecto de lo que yo les decía del efecto de la esperanza de vida al nacer. Realmente aquí hay alguna corrección en el tiempo y está la la esperanza de vida al nacer y que tiene una tendencia creciente.
00:39:08:17 Pero el COVID nos pegó fuerte. No sé si alguien de los que está aquí participando quiere que grafique en otro país. Simplemente tenemos que ir a buscar cuál es el número de México de los otros países de la región y para que veamos como como es la esperanza de vida al nacer. ¿Pero si ustedes miran la esperanza de vida al nacer, el presidente en en la mayoría de los países de Latinoamérica ya eh con Ecuador?
00:39:37:24 Pregunta Diego Salazar Miremos simplemente cuál. ¿Cuando Ecuador para que? Para que no sé que no continúe cuando otro Mirémoslo acá ya México dice ya no sé de Ecuador. Ecuador tiene el nombre jugador tiene a Ecuador, tienes algo que ya se agregamos acá a México, Costa Rica muy bien, no lo hagamos todos y no nos vamos a cansar. Ya Ecuador de dijimos Ecuador el 67, entonces aquí en listo permite como el inde SQL.
00:40:02:25 Entonces yo le digo acá que el número del país pero no escribir el nombre cada uno. Si escribimos 67 jugador agreguemos México, México y Costa Rica. México es el México, México 158 y Costa Rica Ya está ahí. Vamos a a llegar Para no escribir tanto. No es necesario que uno lo escriba aquí ordenado en el, en, en el África es Costa Rica 52.
00:40:28:18 Bueno, aquí en la variable y el número de los países diga que no están ordenados zona verde con esto no describe qué país queremos clasificar. Entonces ahí están. Todos los países tienen un movimiento similar en la esperanza de vida al nacer. Ahí habría que ver que Fuente captura el Banco Mundial respecto. Probablemente los institutos de estadística de cada país en Chile se llama INEGI, INEGI en México eh, no me sé el nombre ahí en los demás países, pero.
00:40:46:14 Pero probablemente uno pueda ver cuál es, cuáles son las fuentes de estos datos. La mayoría llega hasta el 2021, 2022, entonces uno puede ir viendo como como se ve este gráfico con el con la opción overlay hacer eh un gráfico, el mismo gráfico y poner una línea distinta con distintos colores para cada país. Estos gráficos tenían colores distintos.
00:41:21:25 Las versiones anteriores de del software de datos así No, no, no usamos la la opción overlay ya eh haría gráficos separados. Entonces déjenme cambiar esto. Acá. Si, si, No. Si no le damos la opción Overlay, se hace el mismo color del gráfico, pero muestra ahí como distintos gráficos para para cada uno de de los países. Si usa la misma, eh, el mismo, la misma escala en los eje X y ahí en el eje Y en el eje de la ordenada y la abscisa está usando lo mismo de lo mismo, los mismos números para no ser inconsistentes.
00:41:38:29 ¿Los gráficos no? ¿Entonces cree usted repitiendo el gráfico que quieran hacer? Pueden ir haciendo cambios. Entonces eso es algo que quería señalarle un poco con estos datos del Banco Mundial hay bastante riqueza para que ustedes puedan trabajar cuando vayan a estar más tiempo en eso. Para para. Queremos volver a trabajar con los datos de la encuesta Protección Social de Chile.
00:42:05:14 Vamos a filtrar sus historias laborales como una encuesta bien larga. Vamos a quedarnos solo con el año 2008. Quiero mostrarles que como interpretamos el comando X, que era uno de los que teníamos disponible, no sé que los invito a que usemos estos datos. Esto yo lo tengo precargado, respeta las de Fui trabajando en en este directorio. El directorio de este webinar cargó la las historias laborales ya.
00:42:23:18 Y creó la. El. El formato de los datos son mensuales. Entonces tengo. No, no vienen así originalmente No, no llevamos tiempo en esto. Ahora podríamos más adelante hacer una versión detallada de cómo trabajar con datos de de encuestas como esta para para que ustedes entiendan como como se genera esto sin pasar tan rápido como lo voy a hacer ahora.
00:42:48:28 Ahora simplemente quiero mostrar que quiero hacer lo contrario, un Duplicate que es un expandir para repetir la variable en el tiempo. ¿Ahí puedo mostrar como como van quedando con el expand eh? Pero lo importante es que me quiero quedar con todas las personas para el año 2008 y estoy usando eh funciones anidadas de series de tiempo. Los datos están en formato mensuales y les digo que quiero crear una solo con los 12 meses del año 2008 ya.
00:43:12:09 Entonces me quedo solo. Contrato para las personas del año 2008 ya eh, Ahí nos creamos con EH, con datos que no están repetidos y hacemos una que está para para la variable dos. ¿Entonces le creo a primera ustedes que lo que hace la variable números de dos en el periodo eh? ¿Qué es lo que estaba haciendo la persona?
00:43:38:05 ¿Entonces hacemos un una descripción de la etiqueta de que son estos listo de la etiqueta y bueno, dicen sí, Qué es lo que hacía cada mes del año 2008? No quiero trabajar con más de de un año porque sino se complica la interpretación de de muchos años. Por eso me quedé solo con 12 meses del 2008. Entonces la persona se preguntaba qué es lo que hacía en cada mes del año.
00:43:56:27 Se responde responde aquí porque se va entre tal y tal periodo estaba trabajando, estaba cesante o cada trabajo por primera vez estaba inactivo. Esto es muy del mercado de trabajo para las personas que que que trabajan en el área social y ver qué es lo que están haciendo las personas. ¿Entonces de qué trataba? ¿Eh? Entonces toma el valor uno trabajando.
00:44:49:11 Se están buscando por trabajo por primera vez y aquí en la lámina está un poco esta descripción. Entonces, por ejemplo, Mira, teníamos, eh, teníamos datos. Ni hemos, eh, eh, pero teníamos datos para 173.546 filas para para todo este año. Y teníamos de esa fila teníamos 14.463 encuestados persona única que si uno asignaría un testing de de SQL o GN único que está acá en SEO que teníamos 14.463 encuestados y bueno eh, de ahí teníamos que de de de todo este grupo de de personas ya de de este total, de estos 173.000 eh las personas se podían repetir, podían estar más o menos 12 veces, 12 veces en 12 meses por año ya, y lo mínimo
00:45:09:05 más que si no lo están en esta encuesta lo mínimo, entonces algunas personas están. No podría ser que un tabulados uno quisiera de de de cuánto está cada individuo ya. Pero, pero. ¿No, no, no, no es la idea, verdad? No. Entonces eso nos dice cuánto está cada persona. No podríamos estar acá. ¿Cuánto está acá? ¿Cada uno de los más próximos, Eh?
00:45:29:06 Está bien. Yo le llamaría más. Entonces. Eh, Ahí. Uno más que que tiene más datos que otro. Pero tiene 14.000 cosas. Pues bastante claro que tienen 14.461, pero hay 14.463 personas. El impacta y algunos probablemente han muerto en el periodo. Entonces uno hablo de esto bastante. Todos los datos de manera se produce así son los datos de manera.
00:46:01:11 Entonces tenemos, bueno, de todo encuestado ya eh nuevo aquí en bruto. ¿Si nosotros hiciéramos un tabulado, tener un tabulado usual sin considerar los datos como tienen COVID rígidamente eh de dos en un sin usar el número de gente, ya que uno se quedaría eh eh como se quedaría que tiene el 59,58% la plaza? ¿Eh? Está la persona que está trabajando con 0,84% la base, entonces ante un solo como un.
00:46:28:23 Como por 100 de las veces están buscando trabajo por primera vez en un 32% de las veces están inactivos. Pero. Pero si, si miramos y ya. Eso es todo lo que está acá. Eso es lo que aparece aquí en el overol, pero en el que lo que nos dice que de las personas, eh, al menos ya, eh, de las personas de estas 14.470 personas, al menos 9074, eh, un mes del año estuvieron trabajando.
00:46:48:21 Entonces esto de acá. ¿No, no, no, no va a sumar, eh? No va a subversión si gastas unos 107 38 porque las personas que pueden haber cambiado de Estado pueden haber pasado de estar trabajando para cesante, estar trabajando, estar inactivo, activo. Esto pasó mucho en la pandemia por este caso. Por ejemplo, en el COVID hay personas que salieron del mercado laboral y pasaron de estar trabajando a no volver a trabajar.
00:46:57:28 Eso pasó en en Estados Unidos le llamaron la gran renuncia y este tipo de encuestas permiten ver este tipo de cosas.
00:47:29:03 ¿Para ser sincero, no, no me he fijado si, si, como cómo fue esto en Chile? Pero sí pasó porque nosotros no hemos recuperado los niveles de empleo que teníamos antes y después. Justo salieron algunas políticas sociales que hicieron que las personas salieron del mercado de trabajo y hoy acá, por ejemplo, vemos que 4871 personas de 133,68 por de los 4000, los 14.463 personas que son únicas en esta encuesta ya estuvieron al menos un un mes inactivo durante estos 12 meses del año 2008.
00:47:55:13 Okay, para que lo tengamos, para que lo tengamos presente en el en estos datos ya entonces para que ustedes lo pueden ver acá. Y bueno, si miramos lo que va a destacar la última columna que de la 9074 personas que que que trabajaron al menos un mes durante el 2008 ya eh estuvieron trabajando uno de los 12 de los 94,96% del tiempo.
00:48:37:16 Entonces la mayoría de ellos hay personas que no estuvieron trabajando los 12 meses, pero hasta 9.064% ya eh, estuvieron trabajando 94,6% del tiempo, es decir, la mayoría tuvo dos más. Eso es lo que estamos, no ya sobre el paso, que para eso sirve, le quita todo. ¿Si, si miramos le quitas una con otra encuesta, eh? Con con el General Social de Estados Unidos nos permite ver como como muestra eh, variaciones en el obrero, en el en el en el within haciendo promedio de individuo ya o haciendo algunos cambios, pues ahí uno ve que lo que hace la estadística ya de cómo se construye por ejemplo el promedio para cada individuo en el tiempo, o sea,
00:49:05:07 si uno mira como como hasta ahí llegan. ¿La sobresalir en encuesta por tres año 2010, 2014, 2012, 2014, la misma persona encuestada entonces como sacaba para el ingreso real, como, como sacaba el promedio del tiempo, como sacaba el promedio, que simplemente el promedio de todo el ingreso para todos los individuos en el tiempo? Como se calculaba la varianza, la varianza de between, la, la, la, la varianza within, se fijan que ahí resta.
00:49:25:12 Por eso puede llegar a tener eh números negativos cuando uno va a ser. Cuando uno mira los datos, entonces la variación global se distribuye entre el la suma de la varianza between y la varianza within. Ya esto para que lo tengamos presente. ¿Entonces, por eso cuando uno mira lo de los dating, los datos acá eh? ¿Podría uno tener ya eh datos que están en negativo?
00:49:49:12 No es que tengamos ingreso negativo, sino que tienen esta transformación X de de de momento y para el individuo y el momento que se le resta al promedio del individuo se le suma el promedio global. ¿El promedio que que llevaríamos entonces Por eso puede tener eh? Para algunos individuos esto podría ser negativo. Tengo un dato que está muy pequeño respecto al a, al de al del mismo individuo.
00:50:23:08 Entonces por eso esto podría podría llegar a tener valores negativos y se le suma el promedio global. ¿Algunos pueden tener ese dato negativo acá, pues tenemos presente, pero esto no quiere decir que que en esta En esto aquí había 12.309 encuestados eh? Sobre todo nuestros datos, los globales del 14.309, pero había 6728 personas, no todos estaban encuestado las tres veces tenía esta encuesta y este que cada uno de los individuos en promedio tuvo 1,82, pues máximo podía estar tres.
00:50:53:18 Algunos estuvieron uno o uno, estuvieron dos personas, estuvieron tres en promedio tuvieron este barra que estuvieron eh 1,83 veces casi aproximadamente, pasando al área próxima, dando al al segundo decimal ya. Esto queríamos decir entonces también esto es un poco la fórmula. Si queremos ver un poco de de estimación de datos de panel en en datos de panel contiene información para varios individuos, empresas, países, etcétera con el individuo y que periodo podríamos estimar en en modelos de series de tiempo o de modelos de corte transversal.
00:51:14:19 La ventaja de disponer de datos de panel tiene que ver con la posibilidad de agregar información. De alguna manera se puede controlar por la heterogeneidad que nos que no es observable. ¿Cuáles son limitaciones y limitaciones? De manera que, pues las personas van saliendo, pueden ir muriendo autoselección y firmas que quiebran, por ejemplo Eh, No sé, hay un país que va a otro y ya puede pasar.
00:51:38:14 Entonces estamos viendo el geopolíticamente en el mundo hay cosas que uno no puede controlar al respecto. Podemos tener una dimensión temporal corta cuando una encuesta que no se puede repetir muchas veces porque es costoso, ya es el modelo básico es ya una variable y su ID ya que tiene depende de una variable independiente. Aquí yo estoy poniendo la constante ya bastante tiempo justamente aquí en el término de error.
00:51:58:08 Entonces este término de corre dos componentes, uno específico del individuo a su que no cambia en el tiempo es invariante en el tiempo. Y otro de la observación, que es eh, épsilon y y the name que tiene los los componentes usuales de un modelo de regresión. Entonces esto es el modelo un poquito mejor descrito que no había escrito lo no me faltaba.
00:52:38:11 Acá el beta Z. Entonces en los datos traspuesto ya. Ya los datos, eh del individuo traspuesto por su coeficiente dependen de la cantidad de variables independiente que tengamos. Va este, insisto, este error que tiene dos componente en este componente que habíamos dicho que era de de uno específico el individuo y el otro. De la observación se. Típicamente pensamos que la esperanza de de eh de este error de la observación no tiene que ser, eh tiene que ver no está correlacionado con con la variable independiente, ni tampoco con los el con la heterogeneidad no observable.
00:53:00:01 Es el caso de efectos fijos ya se puede estimar por el método ya eh por por mínimos cuadrados con variables, así que es relativamente fácil de hacer. Uno tiene un típico de etapa y coloca una variable de una para cada individuo y punto el identificador de individuo y no tendría el estimador. Lo voy a hacer con internet, que es lo que vamos a hacer nosotros.
00:53:22:12 El estimador eh, que es simplemente sacar el promedio y poder calcularlo o el estimador en primera diferencia que uno lo voy a hacer rápidamente con haciendo eh el operador de diferencia ya en ya que tenemos la variable declarada serie de tiempo uno voy a hacer esto. ¿Vamos, vamos ilustrarlo con un ejemplo acá para que podamos mostrar esto luego cómo comparamos entre los distintos estimadores?
00:53:48:11 Esto crea estimadores de efectos fijos. ¿Entonces el estimador de primera diferencia estimador eh igual al al estimador muy pero pero solo en el caso de que tengamos dos periodos no? ¿Si tenemos más de dos periodos no son iguales, pero son ambos cerrados eh? Ambos son consistentes para un que fijo y un n que crece hasta infinito. Ya, eh, hay una pregunta ahí ya.
00:54:09:03 En en en bases de datos que no cuenta con variables completas para todo el año. Por ejemplo, el índice de paginación en México, que se mide cada cinco años, como trabajar para para trabajar. Bueno, el el el en este caso una opción. Bueno, no, no no es muy bueno en econometría, eh completar dependiendo del del modelo que tú quieras hacer, uno puede completar el No no recomiendo.
00:54:29:27 Eh. Ay, yo preferiría trabajar con una serie que sea cada cinco años ya. Eso es lo que se hace en muchas variable de desarrollo cuando hay poca variabilidad, sobre todo en una base basada en una variable. Eh bueno, eh, trabajar cada cinco años, por ejemplo, en hacer las condiciones institucionales de un país, no variar año a año. Entonces los modelos de desarrollo económicos, lo que lo que tienden a hacer es la pregunta.
00:54:53:04 ¿Eduardo Eh Padilla que que está preguntando eh? Se tiende a trabajar con eh por ejemplo cada cinco años. ¿Entonces que variable temporal sería que cada cinco años una una variable genérica que sea cada cinco años? Y eso sería para esta variable yo llevaría por ejemplo el El resto de las variables las tendría que adaptar para que sean cada cinco años para poder trabajar con esto.
00:55:11:07 ¿Pero con esto, como dice acá, como el índice de imaginación en México se yo, yo prefería trabajar eso eh? Al menos que tenga la posibilidad de de hacer algún eh, en algún formato de interpolación, pero si es que es variable, dependiendo del tipo de problema que que tú estés trabajando. O sea no, no, no hay una recomendación única dependiendo del tipo de análisis que quieras hacer.
00:55:34:27 Es decir, prefieren interpolar linealmente o hacer un spline, algo para para tener la variable más suave ya eh, o repetir la variable en el tiempo, pero eso puede que no sea muy bueno dependiendo de lo que lo que tú quieras hacer en análisis o la otra variable que tiene más frecuencia, llevarla a hacer un promedio y llevar promedio de cinco años para que tenga la misma frecuencia que que el índice de paginación y ahí hacer tu modelo ya.
00:56:02:24 Eh, Esa sería mi recomendación en este caso. O sea, depende un poco del tipo de análisis que tú estés haciendo. Ya, si eh, hay alguien que me respondió, me respondió No, de nada Edward, si hay alguna consulta por favor como disponible para atenderla. Si, si existe autocorrelación en el término error, entonces es mejor hacer primero la diferencia. Si t es grande y él es pequeño, digamos por ejemplo que 33 20 Ya pedí un grupo de obligarse con cuidado.
00:56:27:14 Es mejor utilizar las primeras diferencias. Entonces ahí tampoco esto de qué es lo que tenemos. Si tenemos los datos, precios de acciones, tenemos, no sé, 20 empresas, pero tenemos datos de no sé de de año, diario, datos, diario, diarios, diario de días hábiles. Cerramos el 2500 observaciones contando los feriados o descontando todo eso a 1500 observaciones ya puede ser un poco menos, pero son muchas observaciones muy grande y poca empresa.
00:56:50:20 ¿Entonces a
Trabajando con datos panel en Stata
En esta presentación se realizará una introducción al manejo de datos panel con el apoyo de Stata mediante un ejercicio práctico. Se mostrarán los procedimientos necesarios para la construcción de un formato tipo Panel y el posterior análisis de este tipo de datos a través de herramientas descriptivas e inferenciales con el fin de llegar a la estimación de datos por efectos fijos y efectos aleatorios. Así mismo, se mostrarán comandos útiles para el manejo de este tipo de datos en Stata.
Etiquetas relacionadas
- Análisis de datos
- Datos
- Gráficas