
Casual Forest
Causal Forest es una técnica que nos permite estimar el efecto de un tratamiento o medida. Dentro de sus aplicaciones practicas, podemos analizar el impacto de un taller a alumnos de liceo (Athey & Wager, 2019) o también puede ser utilizado para predecir el efecto de un micro crédito en la población de una pequeña localidad de Marruecos (Jacob, 2021).
El caso de Marruecos
Se estudió como influyó una política de microcréditos rurales llevada a cabo en por Al Amana, la institución de microcréditos más grande del país.
Para poder aplicar a un préstamo, el solicitante debe tener entre 18 y 70 años, tener documento de identidad, un certificado de residencia y haber ejercido una actividad económica distinta a la agricultura durante al menos 12 meses.
Para llevar a cabo el experimento se separaron 162 villas en 81 pares, estas fueron agrupadas por su similitud, donde en una se iba a aplicar el tratamiento (programa de microcréditos) y en la otra no. Se realizaba una encuesta en ambas poblaciones antes y después de que se instalara una nueva sucursal en una de las dos villas.
En el trabajo original (Crépon, Devoto, Duflo, Parienté. 2015) , se encuentra que los microcréditos no tienen una gran influencia en el consumo ni en el ingreso total de quienes lo solicitan, pero Jacob busca entender, a través de la técnica de causal forest, como afecta a cada subgrupo de la población el acceso a los microcréditos, con el fin de identificar aquellos más beneficiados por esta política. Estos se identificarán a través del efecto medio del tratamiento, concepto que explicaremos con mayor detalle más adelante.
En el trabajo original podemos identificar los efectos entre tratamiento y control para distintas medidas.

Figure 2: Cumulative distribution of potential outcomes for compliers. Crépon, Devoto, Duflo, Parienté. 2015
Mientras que el análisis de Jacob nos permite identificar la diferencia del efecto de tratamiento por caracteristicas internas dentro de los grupos

Figure 1.2 (Jacob, 2021)

(Jacob, 2021)
Como fue explicado en un blog anterior, los valores de Sharpley nos permitirán conocer la importancia de las variables para explicar nuestro modelo. En este caso nos dirá cuales son las variables que más explican la diferencia de efecto de tratamiento entre los grupos.

Causal Forest
Para explicar como funciona Causal Forest, la mejor estrategia es descomponerlo en varios elementos e ir atacando uno por uno.
Probabilidad conjunta y causalidad en media
Podemos definir la probabilidad condicional como la posibilidad de que ocurra un evento A, dado que ocurrió un evento B. Sin embargo, esto no nos permite afirmar que el evento B es el causante del evento A. Para poder afirmar que existe una relación causa y efecto, una de las estrategias que podemos utilizar es la causalidad en media.
De una forma resumida, tomaremos dos universos, J con todas las variables menos la que queremos analizar y otro J’ con todas las variables . La causalidad en media, lo que hace es calcular que la probabilidad de X dado J menos la probabilidad de X dado J’ sea distinto de cero.
¿Que es una prueba A/B?
Las pruebas A/B son muy usadas tanto en marketing como Data Science. La idea, muy simplificada, es tomar dos grupos, uno de control y otro de tratamiento, y a partir de esos dos grupos queremos saber como afecta a nuestra variable a analizar.
Uno de los ejemplos comúnmente utilizados es el del cambio de color del logo. Si queremos cambiar el color a nuestro logo pero primero queremos analizar que efecto tendría en los clicks de las personas, lo que podemos hacer es generar un experimento donde a algunos usuarios se les mostrará el nuevo logo mientras que a otros se les seguirá mostrando el mismo. Obviando los potenciales problemas de construcción del experimento, una vez concluido el experimento podremos saber si el aumento o disminución de los clicks está determinado por el cambio de color (esto estará sujeto a un testeo de hipótesis).
¿Que es un árbol de decisión?
Los árboles se utilizan para identificar variables y valores por lo cuales podemos separar nuestros datos, luego esos grupos pueden volver a separarse. Nosotros podemos determinar cuantas veces se separa, seteando la profundidad o asignándole un mínimo de valores que puede tener uno de sus subgrupos.
Las variables y los valores por los cuales divide el árbol se elije con el fin de que cada grupo sea lo más puro posible, es decir que contenga miembros con la misma característica buscada.

https://medium.com/@nikhiljoshi_31567/decision-tree-analysis-with-example-64bc65192d5f
¿Que es un Random Forest?
En Random Forest lo que se hace es encadenar árboles. Tomamos un árbol y dividimos solo por un par de variables, ese árbol resultante pasa a ser el input de nuestro siguiente árbol en el cual volvemos a separar solo por un número de variables.
En cada una de estas iteraciones el modelo va aprendiendo gradualmente a como categorizar. Un riesgo que siempre está presente es el overfitting, lo que significa entrenar demasiado el modelo con los datos de prueba pero que esto le genere un pobre desempeño con los valores reales.
Causal Forest
Una vez que hemos comprendido todas las técnicas anteriores, estamos en condiciones de adentrarnos en Causal Forest.
Del nombre y de lo que hemos venido hablando rápidamente nos damos cuenta que vamos a mezclar Random Forest con probabilidad condicional, el objetivo es encontrar subgrupos donde el efecto del tratamiento sea diferente.

Para esto se define CATE por sus siglas en ingles que es el efecto condicional promedio del tratamiento, es decir la esperanza de nuestro tratamiento dado el resto de las variables.

Supondremos que CATE es igual dentro de una misma hoja pero este será distinto al de las otras hojas del árbol.
Vamos a dividir nuestra muestra en dos, con una mitad vamos a estimar la estructura del árbol, y con la otra vamos a predecir el efecto del tratamiento. Para cada valor, vamos predecir dos outcomes, uno para el tratamiento y otro para el control donde la diferencia para los predicciones potenciales es igual a CATE de la hoja el árbol.

https://towardsdatascience.com/causal-machine-learning-for-econometrics-causal-forests-5ab3aec825a7
Para evitar el overfitting, causal forest utiliza una “función de honestidad”, esto significa que el modelo conoce la salida verdadera de cada elemento o para estimar el efecto de su tratamiento o para decidir el lugar donde va a separar las hojas, pero no en ambos momentos.
Este método nos ofrece una gran herramienta para estimar el efecto contra fáctico de una medida, tanto si queremos saber el efecto que podría haber tenido una medida o el escenario si esa medida no hubiese sido llevado a cabo.
Bibliografía:
Causal Machine Learning for Econometrics: Causal Forests
Estimating Treatment Effects with Causal Forests: An Application
How do A/B tests work?
Estimating the Impact of Microcredit on Those Who Take It Up: Evidence from a Randomized Experiment in Morocco