Autor: Franco Andrés Mansilla Ibañez / Portafolio: Quantitative / Mie. 19 de Jul de 2023

Transcripción de este video

(Transcripción automatizada sin revisión humana)

00:00:30:17 Software Shop, la empresa líder en la implementación de herramientas analíticas y software especializado en Latinoamérica, les da la bienvenida a esta presentación. El día de hoy contamos con el acompañamiento del instructor Franco Andrés Mansilla, especialista en entrega de soluciones analíticas a necesidades y problemáticas del negocio, tal como inversiones, operaciones y riesgos. Académico de la Universidad de Chile en cursos de riesgo financiero del Magíster en Finanzas y Métodos Cuantitativos.

00:01:03:06 Sus temas de investigación son eficiencia de mercado, riesgo financiero, machine learning y econometría. Bienvenidos. Muchas gracias. Lisa. Bueno, bienvenidos a todos. A los 45 participantes que están presentes en este taller, principalmente en la motivación de este. Este taller consiste que ustedes puedan visualizar más o menos tres horas bien cómo en parte se puede aplicar la analítica de datos.

00:01:33:01 Vienen conociendo algunos conceptos a priori que son muy relevantes conocer lo que es, por ejemplo, machine learning, teligencia artificial y otros conceptos que nosotros tenemos que saber para poder elaborar cualquier cualquier método aplicado sobre datos en. Es importante entender que los datos somos nosotros mismos los que entregamos esta interpretación que le puede servir al negocio en una investigación.

00:01:58:09 Por lo tanto, es relevante que nosotros entendamos bien los todos los pros y los contras que conlleva aplicarse por bien. Yo siempre he dicho que la analítica en sí o la expertise de la ética es como un cafetero. Bien, lo cajitas son las personas que arreglan a la mano, por ejemplo cuando se echa a perder y ellos cuando llegan y le presentan el problema.

00:02:38:20 Ellos tienen que lograr comprender primero la problemática, diseñar una solución y entregar una técnica adecuada para desarrollar esa solución. Por lo tanto, esto es exactamente lo mismo. Bien, solamente que más aplicado con negocio, datos, datos por sí mismos y distintas técnicas. Entonces, cómo nosotros vamos a abordar esta. Este taller? Vamos a comenzar con una presentación donde esta presentación principalmente se enfocan en introducir que es inteligencia artificial para continuar lo que es machine learning y todo lo que es conceptos generales.

00:03:19:01 Bien, esta presentación es 1/1 de esta primera sesión. Perfecto para después que nos pasemos el estado y comenzamos a ver bueno que se estaba por que nosotros estamos utilizando esta vara para para abordar estas necesidades y primero comenzar a hacer una introducción de programación iterativo en esta bien, es mostrarle en cierta manera porque está tan bueno para manipular datos y también para aplicar ciertas técnicas que no nos van a servir para para resolver esa soluciones que nosotros necesitamos para luego comenzar con una base de datos.

00:03:50:25 Todo lo que es la identificación y el tratamiento de datos, que son datos atípicos e inválidos, en fin, que por correlación cierto análisis previo que podemos hacer, etcétera. Por último, terminando con lo que son filtros por correlación y lo que el modelamiento. Bien, entonces. Bueno, como les comentó Lisa, el micrófono está están habilitados para si alguien quiere hacer alguna alguna acotación o alguna consulta, no hay ningún problema que lo hagan.

00:04:28:00 Lo ideal idealmente, que esto sea didáctico bien y se transforme en un ambiente de ensayo. Bien, qué es la IA? Ni simplemente la IA es un área que hoy en día se está fuertemente fuertemente usada, bien por todo el mundo. Principalmente generó mucho revuelo cuando Tesla sacó su primera su su primer auto, en la cual se podían automatizar.

00:04:54:20 Podía manejar por sí solo y bien, y que eso en parte revoluciona en cierta medida la lo que es la inteligencia artificial. Y como esta inteligencia artificial nos podría ayudar a lo que es avance cotidiano en la vida de antes de como conducir un auto en forma automática hasta el día de hoy, de cómo Champ no pueda responder preguntas coherentes a través de un.

00:05:30:12 A través de Transformers, por ejemplo. Entonces, y qué es la IA? Principalmente la IA es. Es el área que que que combina muchas otras áreas, otro, otras disciplinas, y está desde la informática hasta la robótica, la ingeniería, el diseño perfecto y que enfatiza principalmente en crear máquinas inteligentes que logren interactuar con la humanidad. Bien, cuando hablamos, por ejemplo de Tesla, el testeo Tesla detrás tiene todo un sistema que te permite conducir por sí solo.

00:06:19:00 Pero pero esa conducción por sí sola viene anclada con otros mecanismos que es la robótica por sí misma, la ingeniería del auto, por ejemplo, el diseño, etcétera Por lo tanto, la inteligencia artificial por sí sola no es capaz de satisfacer un producto final bien para. Para que la interactúe con un. Con un individuo bien tiene que ir complementada o anclada con otras cosas, con otras disciplinas y en el caso de hoy, con el famoso chip que principalmente también tiene no tantas disciplinas como participan en la creación de un auto, si no, pero también tiene todo una, uno, un como un ecosistema detrás que te permite principalmente lograr interactuar con una máquina donde esa máquina tú

00:06:55:07 mediante preguntas frecuentes, o sea preguntas que tú les vas haciendo, el va a poder responderte preguntas coherentes, bien, recuerden, son preguntas coherentes, no necesariamente, no necesariamente correctas. Bien, y el dilema que hoy en día se está utilizando, porque no todo lo que arroja GPS es algo que se puede creer, incluso se ha demostrado que inventa cosas. Perfecto, entonces ahí es uno, donde es, es para qué lo voy a usar bien.

00:07:36:07 Por ejemplo, muchas veces los programadores lo utilizan para para hacer, para hacer transformación de códigos, perfecto. Pero es decir, pasar de un código Python a un código java, por ejemplo, bien, o un código ya, un código python, etcétera Y principalmente dentro de esta, de este mundo, de este mundo, esta aria gigante que es la inteligencia artificial, se encuentra lo que es el machine learning y el machine learning, principalmente lo que le da la inteligencia a estos sistemas de, a estos sistemas creados por la inteligencia artificial.

00:08:33:13 Bien, hoy en día el machine learning es un área en la que nosotros la podríamos subdividir en lo que es tool machine learning clásico y todo lo que es el deep dormi perfecto. Hoy en día, por ejemplo, las empresas, yo mismo hoy en día en la empresa donde yo trabajo aplicamos algoritmo de di learning para ciertas, para lograr ser más eficientes en términos operacionales, es decir, un flujo de proceso en que supongamos llega un cliente donde ese cliente presenta que quiere solicitar un crédito y ese crédito el ejecutivo le pide distintas liquidaciones y su solicitud o certificados de AFP, etcétera para que el ejecutivo en parte no cargue esa información el mismo y se demore,

00:09:03:29 por ejemplo, 30 minutos en cargar esa información. Bueno, esta este sistema, este, este modelo que podríamos decir que tú le cargas las los pdf y el lo que pasa por detrás por uno CDR primero pasa al PDF Imagen de papel, imagen de texto y texto. Hace todo procesamiento de lenguaje. No es un proceso de lenguaje natural y eso después lo inyecta o hace la ingesta.

00:09:48:13 Otro motor de oración o un motor que se utilice en el banco. Existen eso hasta otros modelos que por ejemplo podrían ser principalmente fraude, en la que el banco la institución financiera que estar, cuales son los clientes que son más fraudulentos y como hoy en día la información va cambiando, va mutando cada vez más. Nosotros tenemos que comprender de que para un ser humano principalmente le es imposible lograr detectar un fraude con esta revolución de información que se está actualizando en cada instante de tiempo.

00:10:33:16 Por lo tanto, qué es lo que hace que el cual es el valor agregado que tienen los modelo de machine learning en ese proceso de evaluación de una persona para asignarle o no un crédito, es detectar patrones. O sea, nosotros como personas somos seres humanos que logramos continuo nuevo estar detectando patrones para ir explicando ciertas ciertas efectos que van sucediendo de la vida, son ciertos hechos que van sucediendo en la vida y también eso lo llevamos al mundo laboral perfecto, sobre todo en la evaluación de la evolución crediticia o la elaboración de fraudes.

00:11:06:05 Por lo tanto, estos modelos, estos modelo, lo que te permiten en cierta medida es evolucionar, es ilusionar esa capacidad que tiene el ser humano, detectar patrones a 100 veces más potente que por eso principalmente que ustedes tienen un conjunto de variables donde ese conjunto de variables que en explicar un evento en particular, en este caso fraude y ese fraude va a ser explicado por variables de comportamiento.

00:11:47:13 La persona de variables de pagos es buen pagador, sus ingresos, su comportamiento vago, su variable demográfica, etcétera Entonces la labor del modelo de machine learning o las técnicas que componen el machine learning es lograr detectar patrones y decir bueno, para detectar un cliente fraude. Por ejemplo, yo logré detectar en los datos que sucede esto, esto, esto, esto, esto y toda esta combinaciones de regla, porque los patrones son reglas, da que existe una alta probabilidad que este clientes son fraudes porta una baja probabilidad que este clientes otro uno tanto.

00:12:25:02 Y es por eso que hoy en día, hoy en día principalmente la evolución del machine learning y tanto del big learning ha crecido por montones, porque hoy en día lo que más tenemos la instituciones financieras o la introducción y generales son datos perfecta. Antiguamente y lo años 90 en los años 2000 no existía una tecnologías avanzadas para poder almacenar los datos, por lo tanto, qué es lo que sucedía de que comenzaba lo lo lo algoritmos?

00:13:18:06 No los algoritmos cuando tenían poca cantidad de datos ser el puntero rojo. Cierto? Y claro que si. Advertí que no sucedía que cuando antiguamente existía mucha menos menos capacidad de guardar los datos y tuvo esa poca cantidad de datos, la aplicábamos a algoritmo, a machine learning. Lo que sucedía es que tenías un desempeño muy bajo, un desempeño X bien, y a medida que esto iba pasando los años, iba pasando los años y cada vez íbamos a tener mejor tecnología y teníamos mejores políticas de almacenamiento y de gestión de base de datos.

00:13:51:15 Íbamos teniendo más datos. Perfecto. Por lo tanto, esto iba creciendo hasta el momento de tener, por ejemplo, una cantidad de datos donde el desempeño del modelo mejora perfecto. Qué es lo que used? Qué es lo que sucedía? Que principalmente con lo algoritmos tradicional de machine learning, por ejemplo, todos los algoritmos super vector, machine ram, los pobres que las corrige, etcétera todos los modelos clásicos de machine learning.

00:14:25:27 Llegó un momento en que tú le pasaban más datos y su desempeño se mantenía. El SEA se mantenía. Por lo tanto. Por lo tanto, cuando tú querías mejorar aun más el desempeño, el modelo, tu tenías que pasar de modelos tradicionales de machine learning a modelos de algoritmos de machine learning más sofisticados, como los modelos de deep learning donde entran todas las estas arquitecturas de red neuronales que hoy en día existen, por ejemplo.

00:15:06:06 Entonces con eso en parte tú lograbas mejorar de mejor forma este salto, todo este salto, este Delta X, el desempeño, el modelo bien y se descubría esto se ha descubierto que acá principalmente no es un problema de cantidad de datos, sino acá es un problema principalmente de la calidad. Bien, calidad del dato y cantidad del dato en la historia se ha ido principalmente logrando diferenciar mucho.

00:15:57:25 Más bien yo prefiero tener más calidad de dato que muchos datos. Y por qué? Porque principalmente yo sí. Acá, por ejemplo, en cantidad de datos hubiese tenido, por ejemplo, mil, pero acá por ejemplo, un poquito más, acá hubiese tenido 500, pero con mejor calidad, quizás estos 500 me hubiese alcanzado, tener el mismo desempeño que hubiese alcanzado con mil por bien y hoy en día lograr verificar a priori la calidad del dato es uno de los pasos primordiales que nosotros necesitamos desarrollar para lograr ver si realmente vale la pena desarrollar mucho bien y por qué lo digo?

00:16:33:25 Porque desarrollar un modelo no es barato, no es, no es, no es solamente el costo del del analista que está construyendo el modelo, sino hay unos costos detrás en la que tú tienes que considerar que realmente, que este modelo que tu vas a realizar es un modelo que realmente va a lograr una expectativa de diseño, bien porque te puede costar de 30 millones a 50 millones de pesos que eso son como 35.000 $, 65.000 $ en el modelo.

00:17:12:09 Entonces, si tú no evalúan bien la creación de un modelo, quizás esos 35.000 $ mejor guardarlo. Entonces, como uno puede, puede comenzar a desarrollar principalmente diferentes diferentes soluciones para resolver estas problemáticas del negocio es mediante lo que se llama las pruebas de conceptos. Bien que una prueba de concepto lo utilizo mucho. Los programadores que ven la viabilidad del proyecto es como una prefactibilidad y la prueba concepto parte.

00:18:03:10 Tú te puedes asegurar en responder ciertas preguntas para ver si realmente esas preguntas respondidas te permiten extrapolar a algo mucho más grande y verificar si realmente es viable o no es viable hacer algo más sofisticado, por ejemplo, o hacer lo que realmente se está proponiendo bien. Entonces, claro, en los años 60 se tenía este desempeño, no, en los años 60 se tenía este desempeño claro por la cantidad del dato, pero ya lo año 2015, con una mayor sofisticación en términos de tecnología y gestión de datos, se podría lograr mejor un mejor desempeño del modelo.

00:18:43:10 Ahora, cuando es bueno utilizar machine learning y esto? Una pregunta muy válida, porque machine learning es también cajita que él había comentado al principio. El café, el machine learning dentro de la herramienta del café, es una herramienta más bien. Y por qué digo esto? Porque en ocasiones hay técnicas que son más sencillas de utilizar en vez de utilizar algoritmos machine learning.

00:19:31:13 Incluso en la parte testada. Vamos a ver una parte en la que ustedes fácilmente van a poder encontrar wow, que técnica y que buena técnica para comenzar progresivamente y verificar si realmente estoy logrando un desempeño, sea bien, porque no siempre el machine learning es la mejor técnica para poder utilizar para resolver una problemática bien. Siempre es importante eso, siempre es importante lograr lograr tener el benchmark bien y los benchmark principalmente son importantes porque así tú vas progresivamente trabajando y logrando un modelo deseado.

00:20:14:07 Entonces en ocasiones, claro, la analítica Merced con, por ejemplo más enfocado a data no estructurada como lo que son los documentos, como son las imágenes, como es el audio, por ejemplo, se necesitan técnicas del machine learning, que en parte claro son avanzadas, pero igual que deberías generar un benchmark. Bien, entonces por ejemplo filtros de correo de spam, claramente tú no puedes utilizar técnicas básicas o clásicas para filtrar los correos de spam que eventualmente lo puedes hacer.

00:20:42:19 Pero quizás como vas a tener gran cantidad de datos en parte tu con como vas a tener gran cantidad de datos, tu tienes que lograr aplicar distintas técnicas de machine learning que te logren detectar. Los filtros están bien, pero eventualmente también podrían existir técnicas más básicas que quizás no sea tan buena como la técnica de machine learning en términos de.

00:21:08:06 De estimas de. De métrica final. Sino que principalmente te puede dar una idea de cuánto en lo. En lo que yo tengo que echar a competir. El modelo de maquila, por ejemplo. O sea, si yo tengo por ejemplo en términos de filtros de spam, aquí tengo 1010, donde el uno es spam, cero no hace spam y acá tengo toda mi variable.

00:21:41:13 Si x bien yo esto yo no podría. Por ejemplo variable x uno podría ser el largo de la URL l, por ejemplo, la variable de dos la es sí si viene con un si viene con una intención de seguridad. La variable tres son diferentes variables que podrían explicar un posible spam. El la variable tres, el largo del correo por ejemplo, etc entonces bueno, cómo yo puedo abordar esta problemática?

00:22:26:15 O cómo yo puedo abordar esta estimación? Yo podría primero, bueno, hago un método clásico y cuál método clásico? El matemático clásico, aplicar un Louie, por ejemplo, una simple regresión logística, una hecho logística. Y si esta relación logística, por ejemplo, me dio una cura, si una cura, si 60% bien que en parte bueno, bueno, igual depende la energía del negocio, parte bueno y aplico un modelo de machine learning, después por ejemplo un super better machine y esta que una si me da supongamos de 62%.

00:22:52:09 Bueno esta que una si primero que yo calcule es el benchmark a algo. Si yo quiero realizar algo más sofisticado, por ejemplo si realize realizo el super vector machine me a 62%, no me quedo con el super vector machine porque la sofisticación que yo apliqué es un modelo ml que detrás tiene todo un poder de cómputo detrás muy potente.

00:23:22:27 Quizás no logra compensar esa ganancia en todo puntos porcentuales que te gané en términos de calibración. Pero y esto es muy importante, porque en términos de negocio esto es dinero, porque es lo que tu te demoras en procesar, en procesar la información efecto, en correr una máquina que se demore. Por ejemplo, esto se demora, supongamos un minuto en correr y este se demore 30 minutos en correr.

00:24:07:25 Entonces estos 30 minutos en términos de costo computacional, sobre todo si estás utilizando GPU, es mucho más caro que aplicar esto que aquí se utiliza. CPU Bien, entonces he aquí otro ejemplo hay detección de fraude, pasa exactamente lo mismo. Y aquí vamos un poquito más adelante, vamos a ver que es importante que nosotros no solamente santifiquemos ciertas métricas, o sea ciertos modelos, no solamente con métricas de negocio, de métricas metodológicas como achuras y cuadrado.

00:25:21:04 La idea es cuadrática, sino también tener métricas de negocio perfecto. Por ejemplo, supongamos el ejemplo detección de fraude. Yo tengo 100, 100 clientes que son fraude y estos 100 clientes me defraudaron en 1.000.000.000. Bien, en mil cero y me modelo en el mismo. Entonces bien, entonces qué es lo que sucede? De que la. Si yo hago un modelo de machine learning, esto es un cliente fraudulento en que fue un año y si yo tengo 100 clientes fraudulentos y supongamos que es un modelo X.

00:26:19:18 Es un modelo X. Me entregó una quiebra. Si, por ejemplo del 80% si ese modelo parte. Es decir, en el modelo logra detectar el 80% de estos clientes que son fraudulentos, es decir, 80% bien clasificados. Ya, pero qué es lo que sucede? Que si yo lo mío con métricas de negocio. Esto es una métrica metodológica. Que si yo lo veo como una métrica de negocio y digo mira la métrica de negocio me dice que de 80%, que fueron fraudulentos, que fueron realmente detectó 80% de clientes fraudulentos, ni de me detectó solamente 50 de sub o 100 de esos 1.000.000.000.

00:27:04:10 Claro, el modelo puede ser muy bueno en este caso, pero en términos de métrica de negocio fue muy malo porque solamente me logró de estos 1.000.000.000 detectar el 100% en términos de términos monetarios. Y entonces tiene de acá de que lo que va a hacer el negocio, que no mejoran en mejorar tu métrica, tu métrica, mi métrica de negocio, porque yo quiero detectar correctamente los fraudes, pero también qué es detectar que sea alta la capacidad de detectar los clientes que son altamente fraudulento y que tengan montos altos.

00:27:37:29 Bien, entonces principalmente si acá yo puedo decir bueno, lo que puedo hacer es hacer otro modelo y que la que si por ejemplo sea de supongamos 55%, pero el monto de nuevo, el monto de negocio, la métrica de negocio fue un 85%. Y a pesar de que la cura, si la métrica metodológica fue menor, logré tocar el 85% de estos 1.000.000.000.

00:27:45:17 Entonces, con cuál se va a quedar con el negocio? Se va a quedar con este a pesar que tenga métrica de a qué horas y más baja?

00:28:26:24 Bien, eso la principalmente es muy importante medirlo, sobre todo cuando nosotros estamos fabricando diferentes metodologías en el ámbito más de negocio que en el ámbito académico. Quizá en el ámbito más académico bastaría solamente estar así u otras métricas bien, bien. Otro ejemplos está lo que es bueno tráfico en transporte, decir de qué forma yo podría optimizar de mejor forma el flujo vehicular bien o hasta lo que es la detección.

00:29:14:14 La detección que ocurre mucho en pandemia, lo que la detección de la mascarilla decir oye, en vez de tener un guardia, un guardia y ponte la mascarilla, hoy estás en mascarilla, tú vas a por unas cámara y la cámara te esta senda sin mascarilla y te levanta una luz. Y eso en parte te acusaba en todo sentido para que tú te pongas la mascarilla y ahora ojo con esto, que usualmente las personas tienen un temor, tienen un temor en que todo está analítica, todo este proceso de inteligencia artificial va a reemplazar lo que es el comportamiento humano o lo que va a reemplazar ciertos trabajos más que un portamiento humano va a reemplazar trabajo.

00:30:00:03 Y claro, posiblemente suceda eso, pero en el corto plazo no va a suceder eso. Porque para que un modelo funcione en un negocio, primero tienen que lograr un ámbito, un un nivel de maduración. El modelo. Y esa maduración del modelo viene acompañada por personas que son expertos y si bien esto es lo mismo que un niño y sus papás, cuando una guagua nace y va creciendo como niño, ese niño primero tiene que ir acompañado siempre los padres, porque tiene que llegar a un nivel de maduración para dejarlo solo.

00:30:28:15 Bueno, aquí pasa exactamente lo mismo. O sea, un modelo de machine learning no puede aplicarse por sí solo en un ámbito de negocio, porque puede dejar la escoba bien, porque tiene que lograr ese ese nivel de maduración. Y ese nivel de maduración lo logra con personas expertas en que eso es distinto a tener personas caras, pero sí necesita personas expertas que lo vayan guiando, sepa medir.

00:31:11:14 Y aquí entran lo que son los sistemas de aprendizaje en el mundo, en este, en este ámbito, existen cuatro tipos de aprendizaje que son relevantes en el machine learning y lo que es el aprendizaje supervisado, el aprendizaje semi supervisado, el aprendizaje no supervisado y el aprendizaje por esfuerzo. Dentro de la analítica hay tres como hay tres uno, puedo decir tres elementos que son fundamentales, más bien uno.

00:32:08:06 Uno es la analítica. La analítica de que descriptiva y disculpa una duda, si no se abre el micrófono por allá se cerro. Ahora que tengo muchas también, pero en un segundo como Word, como Umbral o web casino y como deja de lado un poco el chat, creo que no hay dos. Que tal analítica descriptiva, la analítica, la analítica predictiva y la analítica prescriptiva para bien.

00:32:44:18 Bueno, ahora dicen que hay otra analítica que es la analítica generativa y aquí entra todo lo que es el mundo de Ivette o lo que son el mundo de los Transformers, bien son con lo que está construido Chad, GPS y todo eso. Bien, estos aprendizajes del machine learning se encuentran dentro de estos campos, se encuentran dentro del mundo de la ética, predijo predictivos desde bien y qué son estos aprendizajes?

00:33:22:04 Son distintas formas en que el modelo logra aprender de patrones. Ya, y yo tengo un ejemplo muy sencillo de esto, que es el típico ejemplo del perro policial. Recuerden que el aprendizaje supervisado es lograr, el aprendizaje supervisado es que el modelo aprenda de un objetivo. Cuando nosotros hablamos de fraude es que el objetivo, el objetivo es los fraudulentos, lo que son fraudes unos y los que no son fraude cero.

00:34:00:13 Por lo tanto, el algoritmo encargado de aprender es en la que tu es algoritmo tiene que lograr detectar patrones dentro de sus características en función a ese objetivo. Bien, bien. Lo mismo cuando un perro policial, por ejemplo, quiere buscar una persona y lo que hace el perro policial es usar lo que hace el policía que es dueño, el perro que le pasa una prenda a la persona y él huele y como que sale a buscar.

00:34:38:14 Entonces él tiene un objetivo claro, es encontrar a esa persona, no puede encontrar un conejo a no ser que tenga el olor de la persona, pero tiene que honrar la persona. Lo mismo sucede acá, el algoritmo, la técnica, el algoritmo que se va a estar encargado de aprender de las características fugitivos, claro, es aprender de aprender de patrones mediante esos datos, con el objetivo de detectar los fraudes y los náufragos principalmente más a los fraudes, bien porque en la clase uno, en la clase de interés.

00:35:22:09 Bueno, un aprendizaje no supervisado es que no tiene un no tiene uno, no tiene un objetivo claro. Hay que en el caso es que el perro no tenga su objetivo y por su capacidad o por lo que aprendió él va a salir a buscar a un ser vivo. Y el riesgo que corre, que puede encontrar una persona o encontrar a un conejo bien y lo aprendizaje supervisado son conocidos como los plastelina, es decir yo acá tengo la variable que uno.

00:35:46:07 La variable quitó la variable x tres, la variable x cuatro y no tengo la variable y que el objetivo esta acá tengo el cliente uno, el cliente dos, tres y cuatro. Entonces el clúster y lo que va a decir el cliente uno pertenece al caster uno, el class, el cliente dos al caster uno, el tres al cluster dos, el cuatro al cliente al claustro uno.

00:36:18:21 El cliente cinco. El cluster dos. Qué es lo que sucede además de que tú no sabes, tu no sabes a qué está haciendo referencia el claustro. El class está haciendo referencia a un comportamiento en particular, a un comportamiento fraudulento, está haciendo referencia a un comportamiento crediticio, a aquí está haciendo referencia porque como no tiene un parque, no tiene un objetivo.

00:36:53:00 Él está encontrando o agrupando a clientes en perfiles o lo está perfilando en función a distancias, a la distancias que está entre la variable que uno le quitó. Se seguido con X3XX3 con x cuatro. Entonces nosotros no sabemos y la gran complicación que tienen los casting es después darle significado, darle significado, clases Qué significa el uno? Lo que significan dos.

00:37:32:20 Entonces pasa lo mismo con el perro que sale y sale a buscar algo que él mismo cree que puede funcionar y ese cree lo mismo que los clase y viene acá utilizando lo que es la distancia. Bien, bueno, el semi supervisado es algo que es algo que no conoce bien, es algo que no conoce bien. El, el, el, el perro le dieron con un objetivo, le dieron con un objetivo.

00:38:07:26 Es como decir yo conozco bien una clase por ejemplo, pero no, no conozco bien la otra clase a que me hago referencia que quizás yo conozca bien y que yo conozca bien cuando un precio está en P, cuando un precio está en un precio justo de un activo financiero, supongamos, o sea, el precio del efectivo debería ser 100.

00:38:43:09 Bien, pero desconozco por qué está en 120. Entonces es como algo que conoces más o menos, no conoces completamente lo que es tu, tu, tu, ambas clases o tus clases. Entonces ahí tu donde entras con los algoritmos semi supervisados que usualmente son como por ejemplo los algoritmos de de anomalía, de detección de anomalías, porque conocen muy bien una clase, pero no conoces tan bien la otra caso.

00:39:18:21 Es como si al perro le hubiesen pasado en vez de una pregunta no se lo hubiesen pasado a algún particular de la de la persona que se perdió pero que no tenga su aroma. Si eso bien, usualmente véanlo como una detección de anomalías. Y por último, el aprendizaje por refuerzo es todo lo que se conoce como el como la forma en que le hicieron al perro a detectar personas.

00:39:53:09 Por ejemplo, que es mediante esta de decir bueno, pero el nuevo es cachorro lo la llevaron a detectar personas o sea, necesitan que aprendas a detectar personas. Por lo tanto, una forma de que aprenden los perros es que le ponen diferentes obstáculos a un obstáculo. Le ponen una persona y otro obstáculo, no le ponen ninguna persona podando. Cuando el perro encuentra la persona, supongamos que con un objeto en particular le dan un perro, un premio y ahí están reforzando el aprendizaje.

00:40:19:22 El perro, por lo tanto adentro el perro. La causa del perro está diciendo a cada vez que yo encuentro a la persona con el olor que me entregaron, es un aprendizaje. Bueno, allí sucede exactamente lo mismo. Por ejemplo, se pueden entrenar robots, robots que son tristes y para que un robot aprenda a ser trader, le enseñen mediante incentivos, mediante rentabilidades positivas.

00:40:50:27 Perfecto a por una tolerancia de riesgo. Pero entonces esto aprendizaje principalmente si se dan cuenta están bien de limita delimitados al objetivo que pueda hacer si. O sea, si tu tienes un objetivo y quieres que tu algoritmo aprenda sobre su objetivo, bueno, ese aprendizaje supervisado, si tu no tienes claro el objetivo o no tienes claro o no tienes perfilado algo y crees que el algoritmo el un modelo y lo perfiles bueno, no es supervisado.

00:41:37:26 Si tu quieres ver si se escapa de lo normal o de lo conocido que entonces aconsejo un aprendizaje semi supervisado. Y si, si tu quieres que algún comportamiento funciona en un incentivo o que es puede ser análogo a aprendizaje. Esta el aprendizaje por refuerzo, si bien hay dudas acá no Franco una pregunta, dígame en estos sistemas entonces puede estar involucrado estos sistemas, estos, estos dos tipos de aprendizaje?

00:42:30:19 Es verdad en la analítica que dijimos acá podrían estar ciertos pasos, depender de un aprendizaje, otros de por ejemplo no supervisado, otros supervisado no, no sé si estoy confundido, o sea, si dependiendo del aprendizaje que tu vas a utilizar va a depender de lo que tu quieras resolver. Si tu quieres resolver que necesito que un modelo me ayuda a tomar decisiones, por ejemplo de que si un cliente es bueno o mal pagador, bueno, yo primero le tengo que decir que cuáles son para mi los buenos o malos pagadores, por lo tanto eso entra dentro de un aprendizaje supervisado.

00:43:20:16 Pero si yo por ejemplo tengo otra necesidad, mi necesidad es que el modelo aprenda de de mi, por ejemplo para tomar decisiones de inversiones. Bueno, hago un aprendizaje por refuerzo y dentro de cada uno de estos aprendizajes o dentro de cada uno de estos cuadrantes, hay diferentes técnicas, diferentes algoritmos. Aquí por ejemplo, están todos los modelos, van con pobres, esta superpuestos, machine esta también los modelos en sample, etc, hay muchos algoritmos, los no supervisados esta endurezcan aquí esta por ejemplo camins, lo árboles jerárquico, etc, los no supervisado.

00:44:03:13 Por ejemplo esta super vector machine que tiene una forma de semi supervisor, hay muchos también otros algoritmos y en aprendizaje por refuerzo, por ejemplo esta learning. Entonces tu luego que identificaste cual es tu problemática y que? Y qué? Principalmente que es abordar? Bueno, para este caso voy a utilizar un aprendizaje supervisado con tal técnica y esta técnica me va a ayudar a encontrar los patrones que necesito para aplicarlo después sea si es será de pronto y tengo la idea.

00:44:36:24 Yo la verdad acá la primera vez que escucho me resulta muy interesante ver que pueden coexistir, por ejemplo en una empresa uno puede necesitar primero definir el cliente que pueda comprar, en segundo, que sea buen pagador y me parece, me parecería que muy bueno. Así en una empresa se necesitaría un sistema. Yo no sé si estoy utilizando la la denominación correcta que involucre un poco de todo, no sé.

00:45:18:26 O sea, créeme que desde ahora, desde el día de hoy, estos estos métodos de aprendizaje ya no se utilizan por si solo. O sea, yo primero por ejemplo aplico un semi supervisado, o sea disculpa, un no supervisado para perfilar, para ver final mis clientes y después aplico un supervisado, por ejemplo, para estimar la renta. Cuánto ganan? Porque yo para saber cuánto ganan le puedo ofrecer campañas, por ejemplo, entonces van a coexistir, es todo dentro de esa necesidad.

00:45:55:28 A eso me refería Franco, me parecía que justamente, claro. O sea, hoy en día los modelos por sí solo ya no se están utilizando mucho, se utilizan, si, pero lo que se están utilizando ahora que es aplicar dos, dos técnicas o dos sistemas de aprendizaje para un objetivo, uno, por ejemplo, lo hace mucho más robusto en términos de modelo.

00:46:36:16 Entonces, bueno, eso fue en términos generales, es un sistema muy simple. Entonces, en términos de conceptos generales, nosotros tenemos que lograr definir lo que son las ventanas de desarrollo y bien, y qué son las ventanas de desarrollo? La ventana de desarrollo son. Son es una técnica o es un método más? Es un método que yo tengo que utilizar para validar qué tan buen es mi modelo sin la necesidad de ponerlo en producción.

00:47:10:26 Bien, que quiero decir con esto? Yo tengo una base de datos. Supongamos que tengo del primer cliente al cliente mil. Perfecto, Tommy variable. Supongamos que cliente, es decir, por ejemplo acá el salario del cliente. Acá tengo los años de experiencia del cliente, los años de educación del cliente, los años de permanencia en la empresa del cliente y otra y otra, muchas variables.

00:47:42:14 Si tú me dices me gustaría hacer un modelo que me permite inferir la renta de un cliente, es decir, la renta o el salario va a estar explicada por un modelo beta cero más beta uno por la educación del cliente, más vetados que la años de permanencia en la empresa, el cliente y etcétera Muchos beta más. Y yo logre estimar estos betas en con la base de datos que yo tengo.

00:48:17:15 Yo necesito después que este modelo de estos betas necesito validar si este modelo es realmente bueno, pero yo no me puedo arriesgar en poner este modelo en producción sin saber antes que es, que es bueno, es estable, bien. Por lo tanto para no? Para poder imple. Para poder utilizarlo sin la necesidad de ponerlo en producción. Sin la necesidad de utilizar lo en el negocio y productivamente.

00:49:08:19 Lo que hago yo en esta base de datos es en vez de entrenar el modelo con estas mil observaciones voy a entrenar el modelo con de la cliente uno hasta el cliente, supongamos 700. Entonces este tren, este 70% de mis clientes, voy a utilizar sus datos para poder entrenar el modelo y con el otro 30% lo voy a utilizar para validar no, es decir, este 30% nunca el modelo va a conocer de esos datos, porque el dato, el modelo aprendiendo o esta detectando patrones de este 70%.

00:49:39:13 Bien, a esto se le llama la muestra de entrenamiento y las muestras de validación. Bien, entonces yo entreno con el 70% el modelo y luego que lo construyo lo valido con el otro 30 y con eso me aseguro y con eso me aseguro que ver la calidad del modelo, el desempeño, el modelo, sin la necesidad de yo ponerlo en producción, el modelo.

00:50:10:29 Entonces con esto me aseguro de decir bueno, si la muestra entrenamiento, supongamos tuvo un acierto el modelo de un 70% y en la muestra de validación tuvo, supongamos un 50 100. Ah, yo digo, bueno, el modelo en la muestra entrenamiento funciona bien el lógico, porque con esos datos centeno, el modelo. Pero cuando le muestro datos que nunca él ha conocido.

00:50:51:29 Que la muestra de validación no es tan bueno, baja el desempeño, baja un 50%. Entonces quizá no es bueno, no es buen modelo para ponerlo en producción todavía lo tengo que mejorar hasta que esta muestra de validación aumente a 70 o cercano. 70, 68, 75, 67, etcétera. Pues bien, entonces con estas muestras yo a mi me van a permitir validar qué tan buenos mi modelos y realmente mi modelo logró detectar patrones.

00:51:23:05 Bien, por qué? Y acá es lo que yo le muestro acá como DEP y como el auto, aquí está la muestra de entrenamiento, hay que tener MEN y esta muestra dejo el out que la muestra como de validación por hay una tercera muestra que la out of time, porque yo al principio les dije que hacer los modelos es caro, es caro construir un modelo 25.000 $, por lo tanto, si yo voy a construir un modelo, a mi me gustaría que sea me gustaría que fuese estable en el tiempo.

00:52:24:29 Y qué significa que sea estable en el tiempo que yo implemente modelo y que por lo menos me dure dos años, tres años y que implemente el modelo lo pongo en producción y el modelo me dure seis meses. No ya Webber de plata igual, aunque sea esos seis meses. Entonces por eso es por eso que dentro de la muestra o dos tan que es una más de largo plazo, si se dan cuenta acá yo definí la muestra de desarrollo en otro entrenamiento y la muestra de variación con lo con los años con datos del 2017 al dos año 2019 en forma aleatoria y la muestra or time en la muestra que estos 2020 perfecto.

00:53:04:11 Entonces yo acá lo que voy haciendo o lo que lo que yo esperaría de que si acá hago el acierto o la cura, si me da 70% acá supongamos, me da 65%, yo esperaría acá que me diera 65% también. Perfecto, pero si acá me da 70, acá me hace sentir cinco y acá me da 20. Ah, porque el modelo, claro, es bueno, la muestro, la muestran más reciente, es la muestra de validación, pero si yo le doy una muestra más a largo plazo no es tan bueno porque me dio 20%.

00:53:31:22 Por lo tanto lo más probable es que si lo pongo este modelo, un producción dure seis meses y al 7.º mes o al todo mes o al año ya se des calibre y tenga que calibrarlo o tenga. O sea, es calibró. O sea, el deterioro puede ser uno, los dos bien. Y que es que ese calibro es lo mismo que una mira, que una miro cuando dispara, por ejemplo, si es si la mira, esta es calibrada.

00:54:08:27 Lo que va a suceder es que no la van a apuntar al objetivo. Bien, por lo tanto hoy usted lo que hacen es calibrar en funcional como hacen los militares, como funcionan bien, el funcionan a la altura, etcétera pero si se deterioro es otro concepto diferente, ya la mira esta mala, literalmente está mala, ya no funciona. Por lo tanto, en esos casos lo que hace, lo que se hace es es hacer una nueva ósea o repararla desde cero o por derechamente reemplazarla también.

00:54:50:13 No es un concepto completamente diferente, unos son mas drásticos que otros y esto lo mismo pasa en la serie de tiempo, bien solamente que acá en vez de acá sea de forma aleatoria la asignación de entrenamiento de variación acabada va a ser ordenada en el tiempo bien. Dudas? Bueno, y por último, conceptos que son importantes sobre ajuste sub sobre sub ajuste y sobre subestimación.

00:55:25:14 Bien, y aquí entra el concepto que se llama el over fitting y el hunter fitting, que es diferente a la sobre y subestimación. Cuando yo les dije anteriormente, cuando un modelo, por ejemplo en muestra entrenamiento tiene 70% de acierto y en la muestra de variación tiene un 40% de acierto. Qué es lo que sucedió acá? Esto. Esto tiene un nombre y esto se le llama el el over fitting.

00:55:56:21 Bien, y que ese no es el fitting no es mas que la capacidad, es decir, no es mas que que tú le diste mucha capacidad. Acá el modelo aprendiera cuando tú le das mucha capacidad a que el modelo aprenda, lo que va a pasar es que en vez de entrenar, en vez de aprender patrones, va a aprender detalles de tu muestra entrenamiento.

00:56:37:12 Por lo tanto, cuando ese modelo que aprendió detalles y no patrones lo aplicas a la muestra de validación, esos detalles no lo encontró en la muestra de validación. Por lo tanto, por eso te digo un acierto bajo. Bien, si este muestra de validación hubiese sido, por ejemplo, hubiese sido, por ejemplo, un 65%. Bueno, yo puedo decir, bueno, los patrones no realmente.

00:57:33:25 Los patrones que encontró acá realmente se aplican en la muestra de obligación. Bien, realmente aquí encontró patrones y cuando lo aplicó en la muestra la lección lo encontró. Entonces, lo más pronto que encontró patrones. Pero existe una casualidad que eventualmente acá encontró detalles y acá encontró los mismos detalles ya quizás en otras muestras, o sea otro método que se llama Kew que un full cross valida, hecho bien, que la validación cruzada que va rotando en parte lo que es la muestra y la muestra variación, pero eso es distinto a lo que es el sobre y la subestimación, porque la sobre subestimación de base van, por ejemplo, en el caso el como les comenté, lo del

00:58:07:16 fitting y el under fitting, que el orden queda al revés que acá de supongamos 50 y acá de 70. El es molesto, mucha menos capacidad que aprendieron, pero la sobre subestimación es al revés, es que, o sea no es al revés? Es que tu utilizaste una base de datos, por ejemplo, o que tu intención era poder predecir el salario de las personas, de las personas que son gerentes, por ejemplo, que es un manager.

00:58:33:24 Bien, pero en tu base de datos para construir esa variable, para construir tu modelo, disculpen, utilizaste una base de datos de personas que no son gerentes, por lo tanto, cuando el modelo estime el salario de un gerente, lo va a subestimar. Por qué? Porque utilizaste datos de personas que no son gerentes. Usualmente son personas que tienen sueldo más bajos o campos.

00:59:04:09 Y lo mismo puede suceder al revés. Tú quieres estimar el precio por salario de personas que no son gerentes y utilizaste tu base de datos gerentes. Bien, y ahí lo que va a ser el modelo va a sobrestimar y esto siempre, usualmente se ha confundido y hay que tener claro cuando, cuando el modelo se esta sólo subestimando a cuando se está olfateando que se le llama bien.

00:59:44:25 Cuál es mi opinión? Mi opinión? Recuerden que siempre hay que comenzar de forma progresiva. Bien, nunca se. Nunca es bueno comenzar con como acaben al amiguito cortando uno se un trozo de carne con una espada. Bien, eso es. Eso es matar. Matar una mosca con un fusil. Bien. Y esto. Usualmente he visto mucho que en ocasiones se hace eso que es aplicar a un problema sencillo, algo, algo sofisticado.

01:00:13:29 Bien, y acá hay un principio que se llama el principio de parsimonia, que lo que dice el principio de parsimonia dice, explica lo mejor posible o da el mejor. Encuentra el mejor desempeño posible, pero de la forma más sencilla posible. Y qué significa eso? Que encuentra el mejor modelo que te entregue. El mejor aquí habrá sido el mejor acierto, pero con la menor cantidad de variables posible o con el método más sencillo posible.

01:00:41:17 Si tu logras eso porque estás cumpliendo ese principio y si no lo estás logrando es porque realmente están matando una mosca con un fusil o como lo está haciendo el que está cortando un trozo de carne con el espada. Bien, porque eso da según en cierta medida entregarle valor en forma temprana al negocio y si entregarle, entregarle apoyo y apoyo en la toma de decisiones.

01:00:55:12 Apoyo en la gestión o eficiencia operacional al negocio en forma temprana hace que la empresa gane mucho más dinero o ARPANET, o ahorre mucho más dinero de forma más temprana posible.

01:01:29:13 Bueno, y eso lo vamos a ver un poquito más adelante que aquí, cuando la parte práctica vemos un break y les parece, vemos un break hasta las cinco 20 para parar otros casos. Yo tengo son las 6,812 minutos a las seis, seis, 20, cinco, 20 o siete 20. Para otros hay que todo el mundo sigue perfecto como en 12 minutos ok?

01:02:08:21 Ok, bueno, muy bien, comencemos con la segunda barrita, como se trabaja y me confirma de esto. Franck, estamos viendo tu pantalla correctamente. Súper bien. Lo que vamos a ver ahora va a ser un ejercicio práctico de lo que es el Estado y como aplicar todo lo que hemos visto en este ámbito. Entonces, qué es lo que tenemos acá?

01:03:02:11 Es una pantalla. Sólo la pantalla está dividida por estará bien por un y tenemos acá. Por otro lado tenemos el. Tu fallo principalmente está acá para un ámbito de instructores. Es una herramienta que se conoce como una herramienta estadística principal mente, porque es una herramienta que es muy potente en términos de manipulación de datos, o sea, hace un té, me dicen Franco que prefieres, pero para tratar datos es hay no estaba, yo prefería, estaba bien porque tiene una facilidad para manipulación de datos que muy muy buena, que a mi me gusta mucho, a diferencia de pandas por ejemplo, que también pandas tiene su flexibilidad, pero bueno, ahí van más bien sus gustos, pero también tiene

01:03:49:05 todo un set de herramientas estadísticas que te permiten hacer análisis posteriores y tratamiento de datos. Pues por ejemplo, de acá te pueda a estadísticos todo lo que son modelos lineales, respuesta binaria esta ley los probó y los logaritmo logaritmo y los modelos de mezcla finita. Bueno esta lo modelo lait que son modelos con respuesta binaria, pero más la ordinal idad respecto a lo que hago selección, no sé, hubo censura, etcétera Bueno, todos desde series de tiempo y de los modelos Ánima, armas hasta modelos Dark FIM, etcétera y los modelos de todo lo que son datos de panel.

01:04:12:24 Bien. Entonces principalmente yo al principio en los cursos que yo tengo grabado con software, yo los curso yo que tengo grabado con software de automatización de Stata, que el primero que recomiendo para esto es pasar al otro curso de machine learning. El que recomiendo yo es el primer curso de atención de proceso del Estado. Bien que acá hay un parte.

01:04:51:28 Te trato de mostrar cómo funciona Stata, no solamente enfocado a lo que son la manipulación de variables mediante cuadro de diálogos o Duffy, sino también te muestro la parte matricial. Destapa bien y aquí vamos a ver algunos ejemplos bien. Y como esto también yo lo pongo, lo podemos utilizar con toda la programación iterativa que tiene Stata detrás. Desde los por los weight, los IF y lo mucho otros más y como combinando entre entonces por tema de tiempo, acá tengo tres Duffy perfectos que quiero mostrarle hoy.

01:05:33:01 Me gustaría hacerlo en términos manuales y mostrándole paso a paso perfecto, pero para esta ocasión prefiero mostrar el código hecho y explicándoselo paso a paso. Que vamos ir haciendo bien. Entonces principalmente en esta parte vamos a ver todo lo que es introducción Stata, que es lo que vamos a hacer en este primer tu fácil introducción a los loops en lo for salta lo formal, lo foreach, lo if, louise, etcétera Después nos vamos a pasar al segundo clock, lo que es identificación y tratamiento, datos extremos, identificación y tratamiento de missing values.

01:05:59:18 Y el tercer Duffy. Vamos a ver los filtros correlación y modelamiento y evaluación de desempeño. Este punto lo vamos a ver en el segundo entonces como instrucción en un loop des de a la luz que tiene Stata en nosotros, que lo vamos a utilizar mucho bien, vamos a llamar a lo que es la base de datos de auto respeto.

01:06:35:00 Perfecto. Entonces acá yo tengo una base de datos de auto en la que la clásica, típica base de datos de auto que tiene de ejemplo estará, la cual tengo la marca del vehículo y diferentes características del vehículo, en particular su precio, la millas por galón número de reparaciones, la altura, la el peso largo, etcétera etcétera Y si es doméstico o foráneo, es decir, si es extranjero, entonces nosotros vamos a ir, ir trabajando.

01:07:14:15 Y el primer ejemplo que me gustaría ver es cómo listar mi base, mi variable. Supongamos, acá tenemos cuantas 12 variables, pero supongamos que tengamos 100 variables. Entonces una forma sencilla de listar variables es aplicar el comando de DS y el comando DS te permite listar variables de forma compacta con las propiedades específicas. Bien. Qué quiere decir esto? Que quiero listar todas las variables efecto con 1,1 largo de 32 caracteres por en ninguna parte dos.

01:07:58:15 Pero pongamos el máximo y con un espacio de uno y quiero que me liste todas las variables que sean, por ejemplo numéricas. Le doy ok, entonces lo que haces es que te muestra este código donde este código es el mismo código que yo tengo acá. Bien, y son todas estas variables que cumplen esos criterios que esto estableciste. Entonces yo ir acá y luego voy a poner return list y return list me va a mostrar una macro, una variable global, osea una variable donde todas estas y este listado de variables va a estar guardado en este list.

01:08:31:02 Es un tema nuevo o se te quedo el micrófono abierto para bien, entonces s estas variables r bar list que es un contenedor, véalo como un contenedor, lo voy a guardar en esta variable local var x Perfecto. Y por qué hago eso? Porque si yo le quiero hacer un suma, por ejemplo un sumara es a la variable país.

01:08:58:23 El sumara es a la variable país es esto. Pero acá si yo quiero hacerle un suma aureus a otra, por ejemplo, a millas por galón, entonces tengo que ir una por una para evitarme ir una por una. Yo listo, este, esta, esta lista de variables deseadas y yo después le hago un sumarísimo a este variable local var x.

01:09:39:26 Entonces lo que va a ser esto que me va a arrojar el listado completo, el suma de todas las variables que estén dentro. Este contenedor var x bien con block, etc diferentes comandos perfecto. Entonces acá bueno, aquí tenemos por ejemplo la variable país vale entre 3291 a 15906. En mi es por galón de de 2 a 41 millas por galón, etcétera.

01:10:27:06 Qué restricciones tienen los nombres de variables de Estado? A qué te refieres con Carlos? Con restricciones que tienen los nombres gracias a si se pueden usar caracteres especiales o no, la longitud etcétera sea usualmente la cantidad de caracteres son 32. Pero claro, si tu por ejemplo uno es buen juego, puede ser numérico alfanumérico, la creación de una variable, pero por ejemplo tu no puedes partir con un número, por ejemplo para crear una variable bien, es decir, por ejemplo lo bueno que tiene estados que tu puede manipular estado utilizando tanto el Duffy como por cuadro de diálogo.

01:10:59:10 Es decir, yo voy a caer la variable y yo por ejemplo la quiero modificar, le desactivo el candado y acá le pongo en el precio. Acá le puedo cambiar el tipo en vez de que sea entero, por ejemplo, que sea doble o que sea float o que sea la un kubik o el formato bien, etc bien, entonces tu tienes esa flexibilidad que puedes utilizarla en estada sin la necesidad de programarlo por E manualmente y específicamente eso y cambiar en funcion a lo que te ofrece estado.

01:12:21:11 En efecto, entonces acá por ejemplo a mi me gustaría poder aquí, me gustaría poder en un segundo, en un subconjunto uno segundo que entonces aquí por ejemplo, me gustaría poder poder crear una tabla, una tabla como almacenar datos y efecto. Qué quiere decir eso? Que a mi me gustaría, por ejemplo a cada una estas variables, que yo esté dentro de mi contenedor x.

01:12:50:22 A mi me gustaría eh, calcular para cada uno el número de observaciones sumé su percentil y su desviación estándar para cada una de las variables. Es decir, cuando yo calculé acá el promedio, o sea el precio, quiero calcular el número, observaciones, el promedio y la desviación estándar y la mediana para cada una de estas. Y las quiero ir listando, guardando bolas en algún lugar.

01:13:35:03 Entonces yo tenga dos formas de hacerlo mediante dos como contenedores para guardar datos, uno mediante una matriz y otra mediante un data frame. Perfecto. Entonces, si yo primero lo quiero hacer con una matriz, voy a utilizar lo que es el ambiente matricial mapa para decir Bueno, voy a crear una matriz de coordenadas 11,4, es decir, 11 variables con cuatro columnas, porque cuatro columnas, porque son cuatro los estadísticos que yo quiero sacar y porque 11 filas, porque son 11 las variables que yo quiero construir.

01:14:00:18 Perfecto. Entonces acá en vez de listar lo guardarlo en un contenedor local, acá lo estoy guardando en un contenedor global perfecto y simplemente para que no se me borre cuando siga iterando porque el local se me borra. En cambio el local global no queda hasta que se mantenga toda la sesión. Cuando yo tengo abierto estado, entonces yo creo la matriz.

01:14:24:16 Hay que disfrutar esto exactamente anterior, pero en vez de guardarlo en un local, lo voy a guardar en un global que se llame Bar X, el mismo nombre y voy a crear la matriz. Entonces aquí mi matriz, tengo cuatro columnas, 11 filas, le voy a poner los nombres correspondientes, bien que los nombres de las columnas va a hacerlo.

01:14:55:13 Número Observaciones media, percentil 50 y desviación estándar y cada una de las filas van a ser el nombre, las variables que están en el contenedor X. Bien, y ahí está mi contenedor. Entonces lo que tengo que hacer yo ahora es lograr de pasar cada uno de estos valores número, observaciones, precio, desviación estándar a esta matriz, número observación en media, desviación estándar y para todas las variables.

01:15:04:10 Perfecto. Entonces tenemos Carlos, Carlos, una duda.

01:15:34:05 Entonces cuál es la forma manual de hacerlo? La forma lenta, engorrosa. Esto se puede hacer manual porque son diez variables, 11 variables, pero imagínate que tú tienes, no tienes 100 variables y tienes 30 columnas para hacerlo manual. Sería una locura. Entonces, para hacerlo en forma manual tú haces de sumara y del precio perfecto. Entonces el sumar el precio de tu arroja esto.

01:16:09:24 Esto detrás de Stata está guardado de esta forma. Cada uno de estos valores tiene un tiene asignado un valor escalar. Entonces, si tú quieres llamar el precio, o sea, disculpen el promedio, tú lo tienes que llamar con esta. Con este acrónimo RMINOS es perfecto. Entonces, si yo voy a la matriz, el precio y el número de observaciones está en la coordenada uno uno en la primera fila, primera columna.

01:16:42:13 Entonces yo acá, en esa primera fila, en esa primera columna, guardo el número. Observaciones Perfecto, con una cantidad decimal correspondiente en la primera fila, que sigue siendo el precio en la segunda columna encuentra el promedio. En la primera fila donde se encuentra el precio de tercera columna se encuentra el percentil y en la primera fila que el precio de la 4.ª columna es la desviación estándar.

01:17:09:19 Entonces yo sé que seguro esto es aun cuenta lo relleno bien, yo no quiero hacer esto en forma manual. Lo que veo son de forma automática. Entonces lo que hago es pasar de un proceso automático, es decir, de un proceso manual de ir cargándolo fila por fila y columna por columna a un proceso que se vaya moviendo la fila perfecto.

01:17:57:21 Es decir, que ese que se mantiene fijo, el precio que se mantiene, qué es lo que se mueve siempre? Esto siempre se queda fijo, las columnas, qué es lo que se va a ir moviendo? Es la son las variables, por lo tanto en que son las variables las filas y como las filas se van moviendo. Yo en la coordenada de que indica la fila de la matriz le voy a colocar un operador, un local donde el local parte de uno que es la primera, la coordenada uno coma columna efecto y en cada una de estas voy a ir guardando su número observación su promedio que está en la columna dos percentil 50, está en la

01:18:29:12 columna tres y la desviación estándar que está en la columna cuatro. Perfecto. Y cómo voy a hacer que se vaya moviendo las variables con este foro, con El forillo? Este forillo va a ir con un operador I que va a ir recorriendo cada una de las variables que se encuentren. El contenedor x perfecto. Entonces va comenzar el el content, el el operador y va a comenzar con la primera variable que se encuentra en el contenedor X.

01:19:05:19 Y cuál va a ser? Va a ser precio? Entonces va a tomar y va a ser igual a precio. Por lo tanto, acaba de tomar su Marais precio coma diez y va a empezar a guardar todo el futuro. Y después va a poner un local más más F. Que significa eso? Que A este F que tiene el valor uno le suma más uno, por lo tanto un dos, entonces acá va a tomar y la segunda variable que es reparación es de 78, se va a reemplazar acá reparación 78 acá ya no va a ser uno, va, van a ser dos y así va a comenzar a hacer el loop y qué es lo que sale

01:19:47:11 a ver y sale? Me muestra bueno la variable, el precio de la variable uno, osea de la variable precio con sus respectivas estadísticos, las variables con cada una de las variables que ahora. Ahora bien, supongamos, y esto con esta matriz yo la puedo exportar, la puedo llevar a una base de datos de Stata, la voz por portal en un excel la pongo exportar en latex, en un word, en un pdf, etcétera Bien.

01:20:27:10 Supongamos que ahora mi base de datos de 70 observaciones la separo en dos, entonces genera un corte que digo que la observación uno hasta la 30. Sea y tenga una variable que la etiquete como uno y la de la 30 al límite sea dos. Es decir, esto perfecto. Entonces la variable de la desde la observación uno, desde la observación uno hasta la observación 30 van a ser los unos y los otros van a ser de la 31 hasta las 30 y 74 aciertos.

Taller online: Analítica de datos aplicada con apoyo de Stata

Las organizaciones están realmente interesadas en extraer, procesar y gestionar las fuentes de datos para depurar oportunidades de negocio, apoyar la gestión y/o eficiencia operacional. Es por eso, que durante este taller, se abordará cómo gestionar y manejar datos de forma óptima para lograr implementar dichos resultados a los negocios, enfocándose principalmente, en herramientas que permitan la revisión analítica de los datos.

Etiquetas relacionadas

Análisis de datos
Metodología
Modelo

¡Comparte este video con tus colegas!

Copiar link

Facebook

Instagram