Detección y prevención de Fraude, ¿Qué tiene para dar la ciencia de datos?
¿De qué hablo cuando hablo de fraude?
Acción contraria a la verdad y a la rectitud, que perjudica a la persona contra quien se comete – Real Academia Española
Engaño económico con la intención de conseguir un beneficio, y con el cual alguien queda perjudicado – Wikipedia, https://es.wikipedia.org/wiki/Fraude
En todas las definiciones el fraude genera una relación de pérdida-beneficio, es decir, la persona que comete fraude busca obtener un beneficio que a los ojos del benefactor, persona u organización del que se deduce este beneficio, no le correspondería.
Por lo tanto, obviando las consideraciones éticas del caso, el acto de fraude implica obtener algo que la contraparte no quiere dar y por ende se debe obtener sin el conocimiento de la misma, burlando los mecanismos de control de la organización o persona para mediante un engaño conseguir un beneficio.
Este funcionamiento tiene dos consecuencias fundamentales, primero el hecho de que quien realiza el fraude es consciente que el beneficio lo obtiene únicamente si no es descubierto, por lo tanto, va a intentar esconder su comportamiento lo más posible.
Segundo, el fraude es una acción dinámica. Ya entrando al terreno de las organizaciones tiene diversidad de formas, actores, y mecanismos, por lo que la detección de fraude y la tarea del detective no termina en el primer caso de éxito, es un proceso iterativo y retroalimentable que permite proteger nuestras organizaciones de la pérdida de valor.
Para detectar fraude en mi organización, ¿Quién es el detective?
Las metodologías clásicas de detección de fraude se basan en análisis de expertos con conocimiento del negocio, lo cual implica que el proceso de detección requiere los siguientes pasos por parte del analista funcional:
- Idear caso sospechoso: El punto de partida de cualquiera análisis de fraude es una sospecha de comportamientos inusuales que puedan estar generando ventajas ilegales para ciertos usuarios del sistema. Es tarea del analista identificar casos sospechosos basados en su conocimiento de debilidades del sistema, experiencia de usuarios, historia previa, intuición, etc.
- Encontrar información relacionada al caso: Una vez que se identifica un posible caso sospechoso recabar toda la información posible para el posterior análisis de si constituye efectivamente un fraude a la organización. Para ello es necesario conocer entre otros los usuarios involucrados, su comportamiento, que mecanismos organizacionales ataca y las implicaciones para la organización.
- Analizar si efectivamente es fraude: Es el paso que consume mayor cantidad de tiempo por parte del analista funcional y el objetivo de la tarea, un comportamiento inusual no necesariamente está indicando actividad con miras de estafar a la organización, es necesario cerciorarse que existe la evidencia suficiente para que el caso pueda ser determinado como fraudulento.
- Tomar acciones: Una vez que se encuentra un caso de fraude es necesario identificar a todos los usuarios implicados en el mismo, así como posibles redes de asociados con comportamientos fraudulentos, para ello es necesario tomar dos tipos de acciones:
- Acciones correctivas: El objetivo de estas es corregir la pérdida generada a la organización por el fraude detectado, por lo tanto, implica exigir retribución a los usuarios implicados en el mismo y generar mecanismos dentro de la organización para prevenir futuros intentos de realizar este mismo tipo de fraude (sistemas de alerta, reglas de negocio, auditoría de personas relacionadas con el caso de fraude, sanciones y medidas judiciales contra los implicados).
- Acciones preventivas: En todo caso detectado de fraude surge una oportunidad de rever los mecanismos de seguridad implementados en la organización, cierto comportamiento fraudulento puede indicar debilidades en la empresa que pueden ser corregidos para evitar futuros casos de fraude no necesariamente iguales al identificado. La generación de acciones preventivas ayuda a cerrar estas brechas en la organización aumentando la protección contra comportamientos fraudulentos de antemano (análisis de redes criminales, fortalecimiento de medidas de control interno, generación de matrices de riego).
La principal debilidad del siguiente enfoque se encuentra en el paso uno, pues requiere que el analista idee los fraudes, si bien el experto de negocio conoce mejor que nadie las debilidades del sistema, el hecho que deba imaginar los casos hace que el proceso sea lento y frustrante de a ratos, pues la gran cantidad de información y caminos de partida dificulta el saber dónde empezar a buscar y el tiempo empleado en realizar está tarea podría ser empleado en el paso tres del proceso, donde es indispensable que los analistas dediquen su tiempo para generar valor directo a la organización.
Nuevas fuentes, nuevos métodos ¿Cómo escalo mis métodos de investigación a un Sistema?
Gracias a la gran cantidad de datos que es posible almacenar dentro de la organización se presenta hoy en día la oportunidad de trabajar con un enfoque guiado por los datos o basado en procedimientos estadísticos, Machine Learning y técnicas de Big Data para generar métodos efectivos de detección de casos sospechosos o de comportamiento inusual dentro de la organización que permitan automatizar los pasos 1 y 2 del análisis clásico de fraude.
Estos métodos buscan generar al analista una hoja de ruta basada en los datos de la organización que permite empezar la búsqueda con una biblioteca de mapas del tesoro: ya no es cuestión de transitar el camino analítico en pos de un caso de fraude, sino que se generan indicios de múltiples casos de comportamientos fraudulentos, incluso impensados por el investigador, que permiten expandir las probabilidades del analista de encontrar fraude focalizando la búsqueda a comportamiento anómalos detectados o guiados por los datos de la organización.
Las principales ventajas de generar un sistema de detección de fraude basado en los datos son:
- Precisión: Aumenta el poder de detección al procesar volúmenes masivos de información, que permiten visibilizar patrones de fraude que no son aparentes al ojo humano. A su vez focalizar la búsqueda de fraude dentro de subconjuntos de datos detectados anómalos que poseen una mayor cantidad de fraudes que el promedio aumenta la precisión del investigador a la hora de analizar los fraudes.
- Eficiencia: El volumen de datos organizacionales a ser analizados requiere la automatización de los procesos para poder explotar al máximo su potencial para la organización. A su vez a menudo la detección de fraude tiene una limitante de tiempo, cuanto más cerca de la acción cometida captemos el fraude hay menos probabilidades que aumente la cantidad de usuarios que comenten ese fraude, así como también mayor probabilidad de poder obtener la compensación por el fraude del perpetuador sin incurrir en gastos organizacionales. Los métodos automáticos de detección de fraude aceleran el proceso, permitiendo poner sistemas de alerta en tiempo real para prevenir futuros fraudes.
Sin embargo es importante tener en cuenta que a la vez que las organizaciones evolucionan y los controles se fortalecen los estafadores también tienen incentivos para encontrar nuevas maneras de cometer fraudes sin ser expuestos, con comportamientos lo más parecidos a lo normal posible, es por ello que un sistema integral de detección de fraude basado en métodos estadísticos y herramientas digitales provee a la organización con la capacidad de adaptarse al dinamismo de la tarea de detección de fraude.
¿Quién maneja los hilos del Sistema de detección de Fraude?
Pero volviendo a la pregunta de ¿Quién es el detective? La respuesta en el caso del sistema es el trabajo en equipo, una tarea tan dinámica como la detección de fraude demanda una metodología de trabajo con actores técnicos, científico de datos, expertos funcionales trabajando de manera integrada para generar sinergias, el nuevo flujo de trabajo implica los siguientes pasos y actores:
- Idear mecanismos de detección de fraude: El punto de partida en este caso es ver los métodos que mejor se adapten a la naturaleza de la organización, para ello el ingenieros y el científico de datos debe trabajar en conjunto con los analistas funcionales, ellos son los expertos del negocio, los verdaderos detectives, el rol a jugar en este paso es poder transmitir las potencialidades y limitantes de los diversos métodos, sugerir opciones de implementación e idear alcance del sistema de acuerdo a la tarea .
- Encontrar información relacionada al caso: en el campo de Machine Learning (ML) y aprendizaje automático, un dicho famoso es “basura como entrada, basura como salida”, es decir los modelos generados son tan buenos como los datos que les damos para aprender, la tarea del equipo en este caso es asegurarse la calidad de los datos con los que trabajamos, que no es únicamente tarea del ingeniero, sino también del analista funcional y del data scientist a la hora de establecer la funcionalidad de los datos para la tarea a emprender.
- Modelar nuestros datos: El desarrollo e implementación de modelos de ML siempre es un proceso iterativo, si bien los actores principales de este paso vienen del lado técnico es importante mantener los canales de comunicación abiertos con el lado funcional de la organización, la evaluación del modelo debe hacerse no solo del lado de las métricas de performance sino que es imprescindible que los resultados sean interpretables y sirvan para el objetivo final de detección de fraude.
- Analizar si efectivamente es fraude: Este paso requiere principalmente de análisis funcional para determinar si efectivamente los comportamientos detectados constituyen un fraude hacia la organización. Sin embargo, la potencialidad de introducir técnicas de visualización avanzada de datos para la definición de los perfiles de fraude encontrados o análisis de redes sociales puede facilitar el análisis y aumentar las sinergias del sistema.
- Tomar acciones: En esta ocasión cualquier acción de interacción con la persona que cometió el fraude, al igual que en los sistemas clásicos está a cargo de los analistas y gerentes de la organización, una acción importante que se agrega es toda confirmación de caso fraudulento debe ser agregado automáticamente a la base histórica de casos de fraude para permitir retroalimentar el sistema y seguir ganando experiencia.
Detección de fraude inteligente, ¿Cómo se integra el Machine Learning a la tarea?
La pregunta final que queda por responder es cuáles son estos métodos de estadísticos y de Machine Learning que me permiten automatizar la detección de fraude de los que hablo.
La respuesta a esto se engloba el paso 1 y 3 de la metodología de trabajo propuesta en el apartado anterior, es decir la selección de técnicas y modelos depende de la tarea y el alcance que se le quiera dar al trabajo de detección de fraude, así como también a los datos con los que efectivamente contamos, no hay una respuesta absoluta, ni un enfoque recomendable, por lo que intentaré plantear a nivel teórico los pros y contras de los tres caminos más trabajados a nivel de analítica de fraude en estos últimos años:
- Detección de anomalías basada en técnicas de aprendizaje no supervisado o analítica descriptiva de los datos
Estos métodos implican encontrar comportamientos que se desvían de la norma de los datos, para ello se busca aprender y caracterizar el comportamiento normal y resaltar los registros que no se adaptan a estos perfiles encontrados.
Estos modelos generan grupos o clústeres de individuos en base a las variables definidas como entrada a los mismos, cada uno tiene un perfil que es imprescindible conocer para su posterior interpretación y señalan registros que pertenecen a ese grupo por sus características, pero dentro del mismo tienen un comportamiento anómalo por ciertas variables.
- La principal ventaja de estos enfoques se trata de que son métodos no supervisados, por lo tanto, no necesitan de datos históricos y conocidos de comportamiento fraudulento o no fraudulento.
- A su vez, un detalle interesante de estos métodos es que pueden descubrir comportamientos fraudulentos impensados por los analistas, es decir diferente al fraude histórico conocido por la organización.
- Mientras que su contra principal es que no todo comportamiento fuera de la norma implica un fraude, es necesario generar estos modelos en base a variables de las que sea de valor encontrar casos raros, por ejemplo, tener una sospecha por el género de una persona dentro de cierto grupo no es de valor, si lo puede ser para ciertos tipos de fraude por la remuneración declarada.
2. Modelos supervisados de predicción de fraude basados en datos históricos de fraudes conocidos
Este caso implica la creación de modelos supervisados, basados en datos que necesitan tener una etiqueta de fraude o no fraude para aprender patrones de los datos que permitan asignar a casos actuales o futuros una probabilidad de fraude.
El modelo entonces permitiría diferenciar si un caso nuevo se encuentra dentro de los casos conocidos de fraude con cierto grado de confianza estadístico.
- La principal ventaja de este enfoque es que permite generar un sistema automático de alarmas detectando patrones que los que comenten fraudes no pueden cubrir o que no ha sido detectado como una regla de negocio, es decir pueden detectar patrones complejos y relaciones multivariadas.
- También pueden servir no solo para prever futuros fraudes de tipo conocido sino también para estimar el volumen de cierto tipo de fraude cometido en la organización históricamente.
- La desventaja más clara de este enfoque es que necesita datos etiquetados, es decir fraudes conocidos, por lo tanto, pierde valor para la detección de nuevos tipos de fraude, puede detectar variaciones de los fraudes conocidos por su poder de ver patrones generales, pero no aplica al estudio de tipos de fraude totalmente diferentes al caso de estudio que genera la marca de fraude/no fraude a predecir.
3. Análisis de redes sociales
El modelado de fraude mediante análisis de redes sociales es una herramienta visual que permite descubrir interconexiones y redes de asociación entre sujetos, empresas, y distintas entidades relacionadas con uno o múltiples comportamientos fraudulentos
Estos modelos permiten ver el alcance de cierta red, como fluyen las comunicaciones, descubrir patrones impensados mediante análisis gráfico y estadístico.
- Una ventaja importante es la facilidad de visualización del análisis de redes, las herramientas gráficas permiten acercar el análisis a los usuarios de negocio o a la gerencia para entender de manera directa patrones complejos, el caso más directo de asociación es pensar en los pizarrones que aparecen en toda película policial de esquemas entre la víctima y los sospechosos, de manera análoga se puede presentar el análisis permitiendo seguir el flujo de trabajo en analítica con herramientas que, aunque no estemos familiarizados, entendemos el significado.
- Otro punto a favor por lo que han ganado popularidad este tipo de métodos en la analítica de fraude en los últimos años está relacionado a que permiten descubrir redes de asociados y personas fraudulentas que tienen probabilidad de cometer más de un tipo de frade, estos enfoques permiten centrarse en las personas y sus relaciones apuntando a los aspectos psicológicos de relacionamiento entre los implicados de manera que a partir de un tipo de fraude conocido tiene la potencialidad de desmantelar una red generando aún mayor valor directo para la organización.
- La desventaja de este enfoque es que solo aplica a redes, es importante tener claro las entidades y los vínculos que se desea modelar para poder extraer valor directo, si cargamos todas las conexiones de la organización es probable que no sepamos por donde arrancar el análisis, por lo tanto, es recomendable.
Puede ser por un tema de brevedad y de enfoque del artículo, pero decidí no entrar en detalle en que algoritmos se pueden utilizar en cada caso para modelar[1], sino que preferí abogar por la importancia de un enfoque sistémico cuando se trata de la detección y analítica de fraude.
Comentarios finales
En pos de eso mi reflexión final va subrayar la complementariedad de los enfoques presentados, que cuántas más técnicas pueda integrar a mi Sistema de Detección de Fraude puedo aumentar mis probabilidades de prever y adaptarme no solo a las características del fraude organizacionales, sino complementarlo con el análisis de los individuos fraudulentos y mejorar mi conocimiento de fraudes históricos o casuísticas que retroalimentan a su vez a diversas partes del sistema.
Otro punto a subrayar es el carácter dinámico de la tarea, emprender proyectos de detección de fraude nos suele embarcar en tareas similares a los famosos juegos del gato y el ratón, es decir, no es solo el detective quién busca métodos dinámicos de detección sino también quién comete fraude busca nuevas formas de burlar el sistema y el juego vuelve a empezar. Por lo tanto, es importante incluir mecanismos de auditoria y mantenimiento en el Sistema de Detección de Fraude para monitorear la vigencia de los casos de éxito y mantenerse a la vanguardia del conocimiento de comportamientos fraudulentos en el sector.
En resumen, el auge de la ciencia de datos que es en sí dinámica, cambiante y de a ratos mutante en su multidisciplinariedad permitió el avance desde los sistemas de reglas de negocios estáticos a metodologías retroalimentables, automáticas pero en evolución, de detección de fraude. Pensar la tarea como un sistema transversal, en constante evolución, puede ayudar a las empresas a generar valor a partir de embarcarse en diversos proyectos o modelos que se complementen para atacar el fenómeno desde múltiples frentes que permitan prevenir y detectar el fraude para reducir las pérdidas y proteger a nuestra organización.
Camila Palomeque
Consultora en Data & Analytics
[1] Para más información sobre implementación recomiendo el libro de Bart Baesen et al. – Fraud analytics using descriptive, predictive, and social network techniques _ a guide to data science for fraud