SS_Logo

Machine Learning en Stata: Algoritmos de Penalización y Backtesting

Autor: Franco Andrés Mansilla Ibañez / Portafolio: Quantitative / Vie. 03 de Feb de 2023

Transcripción de este video

00:00:45:18 Somos un equipo autogestionado, responsable, proactivo y autónomo, con gran compromiso social, aportando el pensamiento científico y el desarrollo latinoamericano, promoviendo el uso de software para investigación en todas las áreas del conocimiento. Generamos contenido de alta calidad teniendo en cuenta las distintas necesidades del mercado. Realizamos actividades gratuitas constantemente. Abordamos temáticas vigentes, aplicaciones especializadas y elementos metodológicos que te permiten interactuar y generar redes para la difusión de tus proyectos.

00:00:55:16 Contamos con servicio de asesoría, consultoría y acompañamiento personalizado, certificaciones internacionales, entrenamientos especializados y talleres prácticos.

00:01:10:22 Nuestro principal objetivo es promover el uso de tecnología en el campo investigativo, generando un impacto significativo en la región y de esta forma contribuir a la creación de comunidad para compartir conocimiento.

00:01:40:06 Te invitamos a ser parte de este gran equipo Software Shop. Visita nuestra página web y conoce nuestros servicios Software Shop, la empresa líder en la implementación de herramientas analíticas y software especializado en Latinoamérica, les da la bienvenida a esta presentación. Esta sesión estará a cargo de Franco Andrés Mansilla, Ingeniero Civil Industrial, con Magíster en Finanzas y en la Universidad de Chile.

00:02:15:17 Actualmente se encuentra trabajando como líder técnico en Inteligencia Artificial en el Banco de Crédito e Inversiones BSI en su país. Se ha desempeñado como analista en investigación económica y Financiera para académicos de la Universidad de Chile y Banco Central de Chile, en temas de mercados de capitales, eficiencia de mercado, riesgo financiero, econometría y estadística. En el área académica ha sido catedrático en temas como Probabilidad y Estadística, Econometría Financiera, Formulación y Evaluación de proyectos y en ramas de ingeniería como Investigación de Presiones y Taller de Ingeniería Civil Industrial.

00:02:43:06 Bienvenidas venimos a este juego escaso o escasa en lo que vamos a ver, principalmente algoritmos de petición y lo que principalmente vamos a ir viendo es una pequeña introducción al machine learning. Bien, y como hoy día el machine learning está interactuando, se está incorporando entre las empresas. Vamos a ver una metodología de street ways, algoritmo de organización que son todo lo que son Reach, la uso de las TIC.

00:03:17:20 Y por último vamos a terminar viendo lo que es Grid Search y que casualidad esto en que en parte sirven para poder así validar si tu modelo te está haciendo bien entrenado y cumpliendo principalmente todos los supuestos que uno establezca. Que uno de los principales por ejemplo en que encuentre patrones más que detalles. Y vamos a finalizar esto con con con un ejercicio práctico en Stata de siete P.

00:03:50:09 Entonces principalmente que es el machine learning. El machine learning es, en simples palabras, es el método aprendizaje, es decir, el método que le entrega a la comunidad comida, la inteligencia, todos los sistemas de lead a todos los sistemas de inteligencia artificial, es decir, todo lo que vemos como un robot, como una aspiradora robot, como un computador, como etcétera, son el machine learning, lo que hace principalmente la inteligencia a través de datos a estos sistemas de inteligencia artificial.

00:04:22:09 Entonces, principalmente tú lo que necesitas como machine learning son son datos bien y idealmente, dado que son representativos a lo que tú quieres que el sistema aprenda. Y hoy en día, principalmente el machine learning no solamente está enfocado a entregar autos a la inteligencia, estos sistemas de inteligencia artificial, sino también se están utilizando mucho las empresas para mejorar el poder predictivo que tienen los métodos clásicos.

00:04:50:08 Entonces usualmente las empresas antes pongámosle de año, otra cinco años atrás, siete años atrás, han hecho modelos que en la cual han sido modelos más clásicos, por ejemplo modelo econométricos o modelos de gestión que buscan más poder, predictivos. Entonces eso le han dado cierto ayudas y cierto cierto desempeño a estos modelos. Por ejemplo 60% de acierto o de desempeño.

00:05:16:13 Y lo que buscan estos modelos machine learning es en tener más un mejor desempeño, hasta modelos clásicos, y se ha encontrado principalmente que ha mejorado considerablemente el poder predictivo de cuando tú aplicas un algoritmo machine learning a, cuando tú derechamente lo haces con un método clásico. Es eso que quiere decir principalmente que eso no significa que siempre utilicemos machine learning.

00:05:49:05 Bien, machine learning es costoso, computacional y costoso también del punto de vista del conocimiento. Entonces, uno uno no tiene que abusar de eso y en el sentido en más adelante le voy a ir mostrando de que nosotros cuando hacemos las modelos en términos generales, en cualquier industria, etcétera, pues idealmente tienes que comparar un modelo de machine learning con un modelo clásico, bien, porque tú lo que buscas es entregarle valor de forma temprana al negocio.

00:06:15:16 Por lo tanto, al momento de que tú le entregues valor en forma temprana, le haces más asertivo la funcionalidad de ese modelo a la necesidad o problemática que tenga el negocio. Bien, entonces si tú cuando aplicas el modelo de machine de modelo clásico y no estás llegando a los resultados esperados, tu Una alternativa es aplicar el modelo de machine learning.

00:07:03:12 Bien, entonces en parte. En resumen, lo que busca principalmente el machine learning es encontrar patrones, al igual que los modelos clásicos y los modelos clásicos interactúan de forma en términos de benchmark a los modelos de machine learning. Entonces, dentro de dentro del abanico existe. De los sistemas del machine learning existen los diferentes sistema de aprendizaje que no me quiero profundizar mucho en esto porque lo ideal es mostrarle lo algoritmos de precisión que están los aprendizaje supervisado, supervisado, semi supervisado, reforzado y principalmente se puede se puede erradicar la diferencia en términos generales muy generales en en en en encontrar los objetivos.

00:07:28:09 Es decir, si tú estás buscando, por ejemplo un fraude, tú le das al sistema o al algoritmo, tú dices oye, esto es un fraude. Por lo tanto, tú tan tú trata de encontrar la mayor cantidad de patrones con las variables que yo te entregue con este objetivo de fraude. Y es como. Es como un perro policial cuando tiene que ir con una persona.

00:07:56:17 Entonces supongo que se pierde una persona en un parque, se pierde en un parque y y está el perro policial. Entonces lo que hace el perro policiales es ir a buscar a la persona, pero antes de que el perro vaya al perro le pasan como un objeto de la persona que se perdió. Entonces ellos hacen oler ese objeto y con ese objetivo el va a buscar.

00:08:24:17 Esto es exactamente lo mismo cuando hablamos de aprendizaje supervisado, es decir, tú le das un objetivo y el algoritmo va a tratar de encontrar patrones en funciones activo, bien no supervisado. No le des el objetivo. El objetivo claro, bien que en parte es una variable semi supervisada. Le das algo como intermedio, bien y reforzado principalmente de cómo se entrenó el perro.

00:08:55:19 Es decir, si el perro se entrena con objetivos de encontrar una persona, en parte tú tienes que entrenar al perro reforzando, reforzando lo con ciertos premios. Usualmente al perro se le da una como un pellet bien que se le da cuando hace algo bueno, entonces él cuando tú le das eso, el refuerza. Eso es aprendizaje porque está diciendo si yo hago esto, me va a dar un premio, entonces cada vez lo va a hacer más en función a ese objetivo de comer más bien.

00:09:30:17 Y también hay que comprender lo que es, lo que se conoce como el sobre sobre ajuste y el sobre y subestimación, que son conceptos distintos. Bien, en me ha tocado ver en término, en término general, en en distintas partes de industria que se tiende a estos conceptos de sobre y sub ajuste a su y subestimación a que sean parecidos y no y principalmente tienen son conceptos que en parte son distintos sobre ajuste o subestimación.

00:09:57:07 Es principalmente en términos generales que el algoritmo está más aprendiendo patrón, o sea, detalles más que patrones. Cuando nosotros hablamos de sobre ajuste bien, es decir, le están dando mucha capacidad en los híper parámetros para que el algoritmo aprenda. Y si tú le das mucha capacidad para que el algoritmo aprenda, lo que va a hacer es que va a aprender detalles.

00:10:42:15 Y cuando esos detalles los lleves a la práctica, es decir, a tu muestra de esa, a tu maestra de validación o la puesta en producción del modelo, esos detalles no los va a encontrar porque son específicamente de esa muestra. Por lo tanto, el objetivo de esto es que el modelo encuentre patrones más que detalles. Y ahí, entre el concepto sobre su ajuste, suba ajustes a sus agarres de decirle has muy poca capacidad hasta que aprende y sobre subestimación se ve relacionado que tú puedes tener un modelo que aprenda patrones pero está subestimando o subestimando el valor esperado que tú esperas estimar.

00:11:18:14 Por ejemplo, yo tengo un modelo de inferencia de renta de empresa, o sea de ventas de empresa, o mejor se puede entender mejor con rentas, con salarios. Entonces este modelo lo que hace es estimar salario, por ejemplo, para un área recurso humano y pues este modelo aprende patrones, Pero qué es lo que sucede de que tú cuando entregaste el modelo le diste una concentración de muestras que en parte no es representativa a todo, a toda la población que tú vas a picar el modelo.

00:11:43:22 Entonces, por ejemplo, tú bias, aplicar el modelo a toda la empresa y pero tú entrenaste el modelo con solamente los gerentes, es un ejemplo. Entonces, obviamente, cuando el modelo se pone en producción y estima, estima en un valor, un valor a una persona que no es gerente, claramente va a sobreestimar el salario, esa persona que no gerente. Por qué?

00:12:13:11 Porque el modelo aprendió de personas que eran gerentes. Pero lo mismo puede suceder al revés. Entonces para, para en parte entrar un poco en juego del punto de vista del azoro o subestimación. Nosotros tenemos que separar las muestras. Y por qué es importante separar las muestras? Porque tú necesitas poder evaluar el desempeño del modelo con muestras que no él haya aprendido.

00:12:47:17 Porque tú cuando pones un modelo en producción, cuando llega una persona, por ejemplo, en el ejemplo de fraude, llega una persona que posiblemente puede ser fraudulenta. Es en las características de persona. El modelo nunca posiblemente hubiese aprendido de ellas. Entonces no sabes cómo lo va a hacer bien. Entonces para eso tú tienes que separar la muestra que tú conoces, que son fraudes y no fraudes en muestras de desarrollo y muestras de entrenamiento.

00:13:32:06 Y por qué? Principalmente porque en parte con la muestra entrenamiento tú vas a lograr entrenar el modelo con todo lo que es para encontrar patrones, y después tú vas a validar qué tan buenos son esos patrones, aplicándola a la muestra de validación. Bien. Y hay otra muestra más que se llama Out of Time, que principalmente esta muestra el incentivo es principalmente ver si son dos cosas uno, que si tú estás haciendo un modelo o esperas que este modelo no se des calibra al corto plazo, es decir, va a ser un modelo del punto de vista monetario muy costoso.

00:13:57:10 Bien, entonces el entonces cuando tú aplicas el modelo a la muestra de de a la A, o sea, la pones en producción, tú esperas que el modelo no sea es calibra los dos meses por lo menos que te dure dos años, por lo menos un año. Entonces existen estas muestras que son muestras, otros también que son muestras más de largo plazo.

00:14:35:04 Entonces lo que principalmente busca es encontrar si el modelo a largo plazo también se comporta bien y también logra capturar estas estacionalidad es bien. Entonces, mi opinión, principalmente lo que uno busca es principalmente lo que busca es aplicar el machine learning está súper bien, pero siempre es importante cuando tú quieres abordar una problemática o una necesidad que tenga el negocio con soluciones analíticas, primero partas por lo sencillo.

00:15:03:05 Y sí, lo sencillo no te está funcionando. No puede ser, por ejemplo, un método clásico y avanzando lo sofisticado. Y ahí está, por ejemplo, el el amigo está cortando un trozo de carne con una espada, le da una solución que tú lo puedes solucionar o un problema que tú lo puedes solucionar con algo sencillo. Para ello utiliza técnicas sencillas, bien, y ahí uno va progresando en eso.

00:15:39:13 Entonces principalmente entra un concepto de Steve Watson y que es el modelo, es TED o es un método? Es Ted West. Cuando nosotros utilizamos hace un modelos clásicos, lo que más tenemos son variables. Perfecto. Entonces el modelo, el método Juan lo que hace es oye, tú tienes supongamos 500 variables y lo que hace es que te arroja la mejor combinaciones de variables con tal de maximizar tu desempeño.

00:16:09:06 Bien, esto no es algoritmo de machine learning. Estos son es un método WISE que trabaja sobre regresiones clásicas o métodos clásicos de regresión. Entonces lo que te hace es producir o hacer la mejor cantidad de variables posibles con tal de con tal de maximizar el desempeño del modelo. Bien, entonces hay quien estatal lo tiene principalmente que tiene un cuadro de diálogo.

00:16:45:02 Tú le dices el comando si su ley id una regresión X un Cartman o cualquier método detrás y le das todas las variables y él trabaja también con problemas con significancia estadística, entonces él va eliminando, va incorporando variables, no solamente optimizando el R cuadrado o las curas y etc, sino también va, va encontrando o te va encontrando el mejor modelo con significancia estadística y aquí tú le das principalmente las probabilidades que tu quieres cuando saque o meta variables.

00:17:20:00 Y por qué? Porque es importante esto recalcar, porque nosotros cuando utilizamos métodos clásicos con gran cantidad de variables, esto se comienza a hacer complejo, o sea, tú vas a tener está violando la ley por hacerlo, que es tener modelos, parsimonioso, perfecto. Entonces lo que va a estar sucediendo es que tú al introducir variables, muchas variables, a un método clásico, es que este modelo, la complejidad del modelo, va a comenzar a aumentar.

00:17:50:09 Y qué significa aumentar? Es que claro, al meter más variables te va a reducir el sesgo, pero a la misma vez te va a ir. Déjenme poner el puntito. Al aumentar el modelo, al aumentar la complejidad, el modelo va a ir aumentando, va disminuyendo el sesgo, pero a la misma vez va a ir aumentando la varianza. Perfecto. Y esto es lo que yo no quiero.

00:18:26:13 Yo no quiero, a pesar que yo puedo hacer un Trello entre este y Varianza. Yo no quiero tener un modelo poco sesgado pero con altos niveles de varianza o al revés, un modelo muy sesgado o bajo niveles de varias. Entonces, principalmente existen los algoritmos de machine learning que vienen a vienen también a proponer un mecanismo de que se llama penalización y el primer método de penalización es free principalmente.

00:19:02:06 Lo que hace este mecanismo de penalización te dice perfecto. Como tú tienes muchas variables, muchas variables, yo lo que voy a hacer voy a introducir dentro el cálculo de tus estimadores. Hay un hyper parámetro lambda que ese parámetro lambda va a tender a a penalizar las variables que en parte no te entregan información suficiente para mejorar el modelo.

00:19:38:05 Bien, entonces lo que hace este parámetro lambda es obliga, obliga a los parámetros que acompañan a las variables a ser cada vez más pequeños hasta llegando a cero. Si es cero en parte lo va a lo que va a hacer es que se va a transformar en un MSO clásico, pero al no ser cero a ser muy pequeño, en parte esto va a va a comenzar a disminuir la complejidad del modelo, porque van a haber variables que un modelo clásico le estaba colocando.

00:20:18:17 100 pero con este método, o sea, el PRI lo va a dejar por ejemplo en 20. Entonces, pasando de un modelo complejo a un modelo menos complejo, bien, entonces principalmente la pregunta que viene es cuántos sesgo estamos dispuesto a aceptar para disminuir o disminuir la varianza? Porque al tú disminuir el nivel de lambda, la varianza va a disminuir, la varianza va a comenzar a disminuir, pero a la misma vez el sesgo va a comenzar a aumentar.

00:20:54:09 Bien, por eso ya un fallo, o sea, yo te doy algo con tal de ceder algo bien. Por otro lado, tenemos otra técnica que también utiliza el mismo parámetro, el lambda, pero lo incorpora en forma distinta y en parte lo que hace lazo es a diferencia rit, es que Rich lo tiende, lo tiende a ser más pequeño, pero en cambio Lazo no es decir, lazo.

00:21:28:06 Puede entrar la posibilidad que un parámetro beta sea cero. Por qué? Porque con la penalización que la aplica lo obliga a ser cero. Cambio. Rich no lo tiende a ser más pequeño, pero no necesariamente cero. Bien, y esto en parte lazo ayuda mucho a lo que es la selección de variables. Bien. Y por último, tenemos. Bueno, y por qué no combinamos ambas un poquito de un poquito de y es lo que se llama la red elástica, que en parte la elástica.

00:22:03:17 Lo que vemos acá es que tenemos un poquito de lazo, que es que es con otro parámetro alfa. Va a ir regulando cuánto incorporamos de lazo y cuánto incorporamos. Bien, ahora qué es lo importante de esto? Y uno de los principales puntos es bueno. Qué valores les tenemos que entregar? Lambda porque el lambda y Alpha en este caso ya tenemos dos parámetros, se lo tenemos que dar nosotros.

00:23:01:09 Entonces algo que nosotros lo tenemos que regular muy bien, estoy el parámetro porque recuerden, si le damos mucha capacidad al modelo, es decir, si le damos mucha capacidad a Alpha y a Lambda, lo que pueda suceder es que el modelo aprenda detalles más que patrones. Entonces de alguna forma tenemos que entregar valores precisos a Lambda y Alpha, y en lo que se conoce como Grid Search, el cliente lo que hace es como yo no sé qué valor asignar, como yo no sé qué valores asignar a Lambda y Alpha, hagamos un loop y mencionamos perfecto, tienes todo este entrenamiento, lo que voy a hacer que le voy a dar a, no sé, mil o 500 valores

00:23:30:07 distinto a Lambda y 500 valores distinto Alpha. Entonces lo que va a ser Grid Search, Eva, lo que va a hacer es que va a comenzar a ejecutar los modelos, a ejecutar lo distinto, las distintas combinaciones con Alpha y Lam, los distintos. Entonces lo que me va a mostrar después es bueno, pueden ser diferentes tipos de gráficos, pero yo acá tengo un gráfico, pero principalmente calor que acá yo tengo.

00:24:09:07 Acá puede ser por ejemplo el eje de lambda, el eje de alfa, pero aquí tengo con otros parámetros de otro algoritmo bien, pero que puede ser alpha y Lambda bien. Y lo que grafica acá es la diferencia entre la métrica de desempeño y de entrenamiento de la muestra entrenamiento y la métrica de desempeño de validación. Si yo quiero que aprendan patrones, esta diferencia tiene que ser mínima, muy chica, porque con eso en parte me aseguro que si lo que aprendí allá y lo que aprendí, lo que aprendí en entrenamiento, al aplicarlo en variación tienen que dar algo muy parecido.

00:24:40:19 Bien, entonces yo tengo que buscar la región en más de cero, no está decir como ese color morado o azul que se encuentra más o menos por acá. Bien, entonces ya con esto tengo una idea, una región de qué valores asignan. Entonces acá le voy a dar un valor de 3 a 5 para ir para este parámetro y acá le voy a dar un valor, por ejemplo de diez y 14 o 13.

00:25:22:11 Entonces con esos ya de hyper parámetros que podrían tener tomar infinitos valores, yo ahora lo agoté a una región mucho más acotada para ir probando. Pero qué es lo que sucede? Que puede entrar la posibilidad que justo la muestra entrenamiento que se consideró para entrenar y y para validar case no casual sino de forma natural, se dio que dieron buenos resultados.

00:25:59:04 Entonces, y ese es un caso. Y el otro caso es nada más segura. A mí nada me asegura a mí que si yo tomo por ejemplo, estos hiper parámetros y yo cambio la muestra de entrenamiento, esto me va a seguir dando bueno buenos resultados, entonces lo que hace es vale, ya encontraste cuáles son tus mejores parámetros, pero veamos si esos hiper parámetros no solamente son buenos para esa muestra, veámoslos.

00:26:46:01 Si son buenos para otras muestras, entonces lo que hace lo que va haciendo es que te va cambiando la muestra de entrenamiento y va cambiando. Va a sacar por ejemplo, un va a sacar un 20% de la muestra entrenamiento, supongamos, sean 20 observaciones y saca 20 observaciones, muestra variación y las cambio. Entonces ya va cambiando, va como rotando tu muestra, entonces ahí tu vas validando principalmente si realmente sos hyper parámetros que considera lo que encontraste con Critters, no solamente son buenos para esa muestra, sino también buenos son para todas las muestra que existen bien.

00:27:28:19 Veamos. Pasemos ahora a la parte práctica con una base dato. Mi objetivo acá, más que mostrar buenos resultados, ya les quiero mostrar cómo funciona la técnica. Hay que conseguir observando, a pesar que al termino de esto encontremos que el modelo malo eso lo mismo. Luego lo importante es que veamos cómo va, como va funcionando esta técnica. Bien, entonces yo acá voy a voy a llamar una base de datos de auto que una base de datos de stata, la clásica base de datos de Stata que tiene que en parte tenemos los precios de auto.

00:28:14:11 Aquí se dan cuenta, tenemos 74 observaciones, algo muy mínimo, tenemos 24 observaciones con diferentes marcas mis Mercedes, etcétera Tenemos precios y diferentes características bien del auto, tenemos la altura de los a la capacidad del de de maletero tenemos lo que largo el peso, las millas por galón, la número de reparación en la altura, etc también tenemos si es requiera un extranjero, etcétera Entonces lo que hacemos después de llamar esto es separamos las muestras, se dan cuenta?

00:28:48:00 Teníamos 74 observaciones, por lo tanto una muestra, la primera lo que están marcados como uno van a hacer la muestra de entrenamiento, es decir, con lo que va a tomar el modelo para poder ser entrenado y encontrar patrones. Y tenemos la muestra de aviación, que es en parte son 20 observaciones, esto es una proporción de 70, 30, 30% entrenamiento, 30% variación bien, y es completamente aleatorio.

00:29:18:04 Bien, ahí está el comando que me permite hacer la aleatoriedad de las muestras en Estados. Entonces lo primero que voy a hacer va a ser un método distinto. Voy a comenzar con lo básico, con más que básico, con un método clásico. Entonces tenemos la probabilidad de no incluir variables aquí. Eso de ver Style Weiss se va a aparecer el cuadro diálogo viene por el comando.

00:30:28:17 Acaban encontrar todos los métodos clásicos que existen, lo que los leit o laid ordinal laid ordinal pro provi revisiones cuantifica el típico MCO todo bid, erdmann, etc Entonces y o funciona de dos formas uno incluyendo variables, es decir, el modelo parte solamente con la constante y va comenzando a iterar incluyendo variables por variable bien o lo otro es que parta con todas las variables, es decir, en este caso con las 18 áreas o con las 12 variables, y vaya eliminando entonces principalmente, siempre mejor optar por ambas, porque en ocasiones cuando va colocando variables se va, se va actualizando la regresión y ahora conviene sacarla y ahora conviene ponerla.

00:31:01:17 Entonces va a ir jugando con esa iteración y lo hacemos para toda la muestra, o sea, para toda la muestra de entrenamiento que la muestra una sesión. Contamos con las 52 observaciones. Bien, entonces al observar esto encontramos que de las 11 variables o de 12 variables encontró que hay tres variables que en partes hacen la mejor combinación en cuyo cuadrado es 52% y una hora y media cuadrática del de 1891.

00:31:42:01 Unidades monetarias. O tal vez sean dólares. Y estas son las tres variables que son estadísticamente significativas que en este caso son significativas al 5% porque nosotros le colocamos acá 5%. Tal vez si acá Luis hemos colocado 1% esta variable, su diseño largo de la Bien, entonces después de eso vamos a evaluar si es que estas variables solamente fueron significativas, porque nosotros consideramos esta muestra de entrenamiento.

00:32:16:18 Bien, entonces lo que vamos a hacer es un poquito un Ford Cross valía hecho en para aparte ir cambiando o ir rotando o la observaciones que quedaron en la muestra entrenamiento. Entonces acá lo que vamos a hacer van a ser 30 iteraciones distinto, bien de más entrenamiento. Ejecutamos y acá observamos. Si se dan cuenta, acá hizo 30 regresiones porque cada cada vez que cambio la observación tenía que ir cambiando, pero obviamente tienen que ser sobre las mismas variables.

00:32:50:21 Bien, y acá al observar que al hacer la métrica de hora y media cuadrática y RMS, encontramos que el promedio de la cuadrado es de 55% y la desviación estándar son de 5,6%, es decir, el R cuadrado en las 30 iteraciones varió un 5,6%, que es relativamente poco bien. Es decir, el era cuadrado, estuvo en 50 y en 60.

00:33:23:00 Pues bien, si esta desviación estándar hubiese estado, por ejemplo, en 20%, ahí hubiese sido un problema. Es decir, estas variables son más que más que entre comillas causales, son casuales por si son casuales a esa muestra entrenamiento que definió acá el principio, entonces ahí hay que mover nuevamente la bolsa de la muestra. Entrenamiento bien y en la muestra validación la promedio era 2000, o sea 2.011 $ y 127 desviación estándar.

00:33:52:23 En parte esto es más difícil porque tiene que tener un nivel de tolerancia a lo que tu, tu, tu, tu como negocios esperas tolerar. Acá es más fácil medirlo en porcentaje 5% 2% 20%. Bien, entonces ya que ya tenemos nuestro modelo perfecto, lo que vamos a ir a comenzar a ver es lo que es lo algoritmo de penalización.

00:34:36:05 Entonces vamos a comenzar con una red elástica donde va a ser lineal, va a estar el precio y acabo de incorporar ciertas combinaciones bien aquí por ejemplo MPG 78, el peso u largo, el desplazamiento, todo para la muestra, entrenamiento para la muestra, entrenamiento y un alfa de cero 75 cero, cinco y cero 25. Lo que está haciendo esto es que primero va a tirar una red elástica con 75% de lazo y 25% de REACH, 50% para cada uno.

00:35:15:02 Y después va a tirar otra regresión con 25% de lazo y 75 sin derecho. Bien, entonces si ejecutamos esto, vamos a observar. Ahí va a comenzar a iterando, porque está reiterando con estas tres posibles alfas y acá te dice mira, nosotros consideramos un alfa del 75 que corresponde 75% lazo, 50% lazo y 25% lazo y luego el complemento sería ocho.

00:36:18:12 Entonces acá te da una idea como la idea. Son distintos modelos, te da lambda distintos, uno de 3000 dando como la altura de los 3000, otro del 1,414 1,0 mal bien y el número de variables que entraron en el modelo en cada uno de estos modelos y le re cuadrado. Entonces observar con un lambda que tiene por ejemplo 1,4 a coma dos en parte considera en rededor de 11 a 10 variables y esto da más o menos 53 por 153,4244% Muy bien cuando se considera un alfa del 50,1 lambda de 3006 y de cero 49, esto llega a ser cero cero 53.

00:36:53:19 Lo mejor bien, si solamente considerás una variable que puede ser la constante en este caso de 33,8 el cuadrado y en 25 de lazo y 75%, y encontramos que das 53 cero 7,1 lambda de cero 30 está bien, entonces hay en parte las tres posiciones. Nos puede dar bien. O sea, si tomamos 75 51 25, esa parte da bien.

00:37:45:10 Entonces lo que uno va a comenzar a hacer ahora es ya que hacemos solamente las que hacemos. Si solamente lazo, si es solamente las o utilizamos la misma comando red elástica, bien la misma variable. Y acá en vez de poner un alfa variado, le ponemos un alfa de uno bien que eso hace señalar que vas a utilizar lazo bien y ahí corre y te dice mira, el mejor es este, que en parte si tu consideras un lambda de cero 29 solamente sea lazo cinco variables te da un cuadrado de 51,0%, es decir, bajó alrededor de 2%.

00:38:32:20 Bien, aquí tu puedes estimar un poco, guardar, aquí tu puedes guardar los modelos con este maestro y acá por ejemplo, lo bueno que te ofrece el street plot es que te grafica cual podría ser el lambda óptimo en función. Si consideraste un solamente lazo o solamente o solamente las. Net bien, etc ahí ilustra gráficamente. Entonces por ejemplo acá te dice mira con un alfa de uno, tú tienes que considerar un lambda y cero 29,5 porque siente que en parte lo que te está diciendo acá, pero esto claro, pues acá son cinco.

00:38:58:11 Disculpen, son su clase, son cinco. Pero hay otra cuestión es la idea de modelo, pueden ser 100, entonces ya es más difícil buscarlo. Entonces este se ve, se ve, te ayuda a buscar los términos más óptimos y Y por último probamos con Rage, que en parte en vez va a ser exactamente lo mismo, pero en vez de poner un alfa de uno, ponemos un alfa de cero.

00:39:44:06 Y aquí encontró que prácticamente con 11 variables fue un lambda de 829.000 da un cuadrado de 33%, o sea, ya es malo. Bien, entonces como que como que los resultados van entre una combinación de lazo puro y una combinación entre elástico neto, pero combinando más proporción a lazo que rige bien. Como por ahí va un poco la la la asignación de los pesos de alfa, entonces acá lo que vamos a ir buscando va a ser un grid search en la que va a ir el BRIDGETT probando los valores de 50 a 400.

00:40:14:08 Bien, entonces va a ir probando diferentes valores de lambda, pero utilizando solamente las 50. Yo acá puedo hacer por ejemplo otro for y otro for values, que no solamente vaya moviendo el lamba, sino también vaya moviendo el alza, es decir, vaya a ese los 5 a 1, no tome de 0 a 1, tome 05A1. Por qué? Porque ya encontré que lazo da mejores resultados.

00:41:30:21 Que bien, entonces aquí vamos a ejecutar este elástico, este for y va a comenzar a iterar. En este caso ya lo hizo Radio porque bien lo tomó con uno 403 50, 302 50, 201 lambda de 150, un lambda de 101 landau de 50, entonces fue de 50 a 400 y acá lo que hacemos ahora es aplicarle la muestra donde tiene la muestra validación, lanzamiento y observamos y observamos que en parte el mejor modelo es con un alfa, o sea con un lambda desde de 150 bien y al arrojar este lambda de 150 nos encontramos de que en parte la muestra de entrenamiento va a dar de un cuadrado fuera de la muestra de un 50,83%.

00:42:01:14 Bien, al poder hacer ese Grid search en parte te va a permitir ayudar donde centrar el valor de alfa si es un valor de AL, o sea un valor de la onda, es un valor de alfa muy pequeño. Vas a estar reduciendo la muestra. O sea, disculpen el sesgo, la varianza, pero aumentando el sesgo. Pero a la misma vez, si tomas un valor de lambda muy grande, lo que vas a hacer es que vas a introducir más varianza para ganar menos.

00:42:01:23 Eso.

00:42:46:15 Bien, entonces estos son los como el puente o el enlace entre los modelos plásticos y los modelos, que son ya los primeros modelos que son de mochila y ahí comienzan a aparecer todos los demás modelos que son del estilo Ramos. O sea, trabajamos por el modelo, ensamblados todos los modelos que son por ejemplo, que dentro de sus hiper parámetros no solamente consideran los hiper parámetros que utiliza la propia técnica, sino también utilizan hiper parámetros de lambda para ir regulando la inclusiones de variables.

00:43:22:17 Bien, dejare estos 15 minutos para consultas, no sé si me podrías ayudar con las preguntas que no sé si ahí sí creo que sí. Claro que sí, Frank. Aquí nos han enviado algunas preguntas. Acá cuando estabas hablando de las variables alineación, tu presentación, nos decían que cuál es el criterio que utiliza esa técnica para eliminar las variables, la significancia estadística y cuál era la diferencia entre las tres que presentaba la.

00:44:03:05 Bueno, el estilo whois lo que hace es comenzar a eliminar y a dejar variables, no solamente considerando lo que es la significancia estadística, que sólo lo tienes que definir ahí, sino también por detrás va a ir optimizando lo que es R cuadrado CPC, más los criterios de información, etcétera También puede ser subjetivo, tú mismo lo puedes hacer, pero si tú en parte quieres incorporar que yo te de información, tú mismo lo puedes programar para que vaya iterando y sacando o colocando variables, funciones o criterios de información, minimizando se la información.

00:44:45:20 Ok, por acá también nos preguntaban qué modelo usa Sharp, lo que pasa es que ya no a que modelo utiliza no? Eso ya es derechamente una red neuronal profunda, o sea ella, eso es. Dentro del machine learning están los modelos clásicos y dentro de esta los de machine learning clásico están está lo que es el deep learning y dentro del deep learning están todos los todas las redes neuronales que son profundas, porque por acá nos consultan como se aplicaría machine learning en la evaluación de las técnicas pedagógicas del docente y el aprendizaje del estudiante.

00:45:28:17 ¿Puede por favor explicar un modelo o dar un ejemplo docente pedagógica? O sea, más que más que predecir alguna evaluación docente o algo en particular, es ver qué variables son las que influyen principalmente en la pedagogía. Bien, entonces más que más que encontrar variables para mejorar el poder predictivo es cuáles son las variables que te pueden a que afecten una buena o mala evaluación docente.

00:46:01:01 Por ejemplo? Vale, por acá nos decían que si podrías clarificar el concepto de hyper parámetro como el lambda efecto, el lambda principalmente, o dentro de un modelo de machine learning entra un concepto que se llama hiper parámetros, que lo hay, el parámetro en lo que tú vas configurando es como las perillas de una radio en lo que tú vas configurando para que el modelo vaya aprendiendo.

00:46:40:19 Entonces cada algoritmo de machine learning va a tener sus hiper parámetros, desde un algoritmo de penalización hasta la red neuronal más profundas que les comenté en Todas tienen su hyper parámetro que tú vas regulando y entonces el lambda entra dentro de un hiper parámetro que tú vas regulando en los algoritmos de penalización y también se encuentran presentes en AP en otros algoritmos de machine, o que por acá nos piden un libro que recomiendes para acudir a revisar la teoría y la aplicación de este tema.

00:47:17:22 Uff, hay varios, hay uno de dejame buscarlo por mientras. Y por cierto, podés ir respondiendo a las otras preguntas. Perfecto para la regresión clásica. Por qué no probar con toda la base de datos que recuerda que tú necesitas? Recuerda que tú necesitas de de una muestra de entrenamiento para encontrar patrones y una muestra de validación para validar si esos patrones se están cumpliendo o son realmente detalles.

00:47:55:08 Y por qué hacerlo así? Porque si tú haces tu muestra, haces tu algoritmo aplicando toda la muestra y ese modelo lo pones en producción. Tú no sabes cómo ese modelo se comporta como ese modelo se comporta sin esa muestra, sin, sin haberlo, sin, sin una muestra que controle lo que aprendió dentro de su entrenamiento. Ok, por acá tengo otra pregunta para los estudios longitudinales o de seguimiento, datos, panel o de medidas repetidas, es posible aplicar esta técnica de machine learning?

00:48:38:18 Sí, sí, es posible, pero te lo va a considerar como un corte transversal. O sea, tú entre comillas, con 4.º nombre. O sea, tú no puedes declarar primero que un panel bien para que el algoritmo te reconozca que estás trabajando con un. O sea, en parte te lo va a considerar como un corte transversal completamente, a no ser que tú vayas introduciendo variables para ir controlando en parte eso del corte de que es un panel derecho con variables da miedo, categóricas o que nos piden que si puedes explicar nuevo el uso del teóricamente y su aplicación conectada.

00:49:14:00 Vale el esta técnica principalmente te sirve como una herramienta de apoyo para seleccionar los parámetros. Si tú te diste cuenta, el parámetro lambda era un parámetro que podía tomar un valor muy pequeño de 0,9 a 1 valor muy grande que era 829.000. Entonces dentro de todo ese recorrido, tú qué valor le asignas? No le puedes asignar un valor arbitrario, o sea, lo puedes hacer, pero pero pueden haber otras posibilidades que te puedan dar mucho mejor desempeño.

00:49:46:00 Entonces lo que hace el Grid Search es eso es, voy a correr muchas opciones, pero y esa opción en parte me va a dar? Cuál de esas combinaciones de parámetros da mejor resultados o mejor desempeño? Para eso principalmente me voy a servir el el Grid Search. OK, Existen herramientas para optimizar la causalidad y no sólo la correlación, la causalidad.

00:50:41:04 Recuerden que en parte la casualidad se dan ustedes cuando hacen estudios los lo que buscan principalmente lo algoritmo de machine learning no es encontrar casualidades o relaciones. Tú lo que vas a encontrar acá es poder predictivo. Bien, no son, no son causalidades o relaciones que te lo puedan dar los algoritmos, o sea, los algoritmos, los métodos de econometría, los econométricos en parte, o sea en parte, los método econométricos no te los da, lo que tu haces es validar ciertos supuestos para después concluir que esto puede tener una cierta causa bien, pero validando ciertos supuestos que en parte el algoritmo de machine learning de partida no tienen significancia estadística porque apuntan más a poder predictivo.

00:51:17:18 Porque cómo se haría este ejercicio con una variable dependiente, discreta? Exactamente lo mismo, pero en vez que sea lineal es una variable no lineal Bien, y es solamente como cambiar la configuración, sino ver si es eso de no ser. Dentro del modelo de la asignatura hay uno que se llama hay tres Lineal Logic Pro Watson. Entonces tú puedes poner lay to profit derechamente perfecto.

00:51:48:21 Y qué tipo de modelos debo aplicar para análisis de contenidos de documentos que no son estándares? Esto con el objetivo de encontrar información específica que permita validar si cumple determinado criterio específico. Y esos tipos de modelo son son. Son modelos con información no estructurada. Lo que estamos utilizando ahora es con datos estructurados. Bien, cuando ya te pasan los documento música, imágenes, etcétera son estructuras de información no estructuradas.

00:52:27:03 Por lo tanto esos algoritmos que abarcan esa información no estructurados son algoritmos que pertenecen al paquete de deep learning, que en parte hay muchos tal y adquieren los famosos nerd que es para el inglés. Roberta porque es para español. Ok, bien, hay muchos algoritmos también hoy en día que te sirven poder extraer información de los PDF y Powerball tabla o cargar información a los sistemas que por acá como se evaluaría en las regresiones utilizando el criterio de RMS si.

00:52:54:20 O sea, recuerda que la raíz media cuadrática es una medida de ajuste a, a diferencia de la raíz cuadrada que es de explica del IAT. Entonces lo que en parte tu haces es con Elastic negro lazo o con cualquier técnica, haces la predicción, vas a tener una especie de precio estimado y esa es la diferencia. Hace la diferencia entre lo observado y lo real, o sea lo observado y lo proyectado.

00:53:15:22 Y tu en parte vas a tener un error, lo suma, o sea, lo del al cuadrado lo sumas y después le sacas la raíz y ahí vas a tener la misma igualdad. Perfecto. Y por último, Franco nos pregunta que si es posible compartir el código para replicarlo en algún momento. Si el problema te lo impide a ti, se actualiza.

00:53:50:21 Ok, voy a dejar en el chat un correo electrónico donde pueden escribir para para esta información que blanco por acá te hago extenso los comentarios que dejan en el chat agradeciendo tu explicación. Muy interesante pues esta explicación de los modelos y herramientas para el análisis. Pues buena todos los asistentes también. Muchas gracias. Si quieres por favor finalizar con la literatura, los libros que puedes recomendar, si hay adjunte uno, si hay sitio por acá, tomen nota.

00:54:22:21 Lo voy a dejar también en el chat. En este momento, el de antes es muy buen libro. Ok, está en español y también está en inglés. Por favor. Perfecto Franco, no tenemos más consultas en el momento. ¿Deseas complementar tu presentación antes de finalizar algo adicional? Agradecerles por estar acá y dejarlo invitado también a los cursos que tengo con software, todo relacionado a machine learning, Machine learning.

00:54:32:11 Hay dos cursos relacionados Machine Learning clásico y Machine Learning Avanzado que allí se le podrá compartir. También el link de los cursos.

00:55:04:16 Claro que sí. Franco Bueno, muchas gracias por tu tiempo, por esta presentación. Les repito a las personas que desean mayor información de licenciamiento para el código Para los cursos que menciona Franco me pueden contactar a través de este correo. Te acabo de dejar en el chat o visitando nuestra página web triple El iPod tanto software guión shop punto com Recordarles que la grabación la podrán encontrar la próxima semana en la información que tenemos compartiendo en el chat Franco nuevamente muchas gracias por tu tiempo y a todos sus asistentes.

00:55:31:06 Muchas gracias por acompañarnos para todos ustedes. Un feliz resto de días. Muchas gracias. Buen fin de semana, Igualmente Franco. Hasta pronto. Para mayor información respecto al software o en temas relacionados, no dudes en contactarnos a través del correo electrónico, entrenamientos a software, guion, ya.com o visitar nuestra página web Triple Ole o software Guión Ya.com.

Machine Learning en Stata: Algoritmos de Penalización y Backtesting


En esta presentación abordaremos los criterios para seleccionar variables al momento de realizar modelos de Machine Learning o de estadística clásica, de igual forma, presentaremos cómo elegir el mejor modelo mediante Backtesting, esto, realizando un ejemplo aplicado con las opciones que facilita Stata 17 para dicha labor.

Etiquetas relacionadas

  • Algoritmos
  • Energías
  • Estadística

¡Comparte este video con tus colegas!

Compartir

Ver más

Cotizar
Próximos
Eventos

X

Mis cotizaciones:

Comentarios a tu solicitud:

Cotizar