¿Cómo podrían detectar las lending fintech a posibles morosos?

El machine learning está cambiando la perspectiva de análisis de riesgo crediticio, otorgando predicciones más correctas ante la probabilidad de incumplimiento

Finanzas

Innovación

Pamela Moncayo

22 Febrero, 2022

Casi siempre las nuevas ideas nacen de nuevas necesidades: en la prehistoria, el descubrimiento del fuego fue producto de la necesidad de luz y calor, mientras que la creación del pan fue producto del hambre. No es distinto si trasladamos esta alegoría a los mercados financieros. La creación del dinero se derivó de la necesidad de encontrar un medio de cambio físico distinto a los propios bienes del trueque. Asimismo, el acceso al financiamiento es una necesidad que, como servicio, ha ido cambiando a lo largo de la historia.

Haciendo un fast-forward llegamos a la crisis hipotecaria de 2007, que generó una reacción en cadena global ocasionando la Gran Recesión, un periodo de alta incertidumbre económica y una importante restricción al financiamiento por el endurecimiento de los criterios de valoración de acceso al crédito. Ante esta situación, y haciendo uso de la tecnología disponible, varios agentes se propusieron encontrar una solución ante esta necesidad tan elemental y compleja al mismo tiempo: el acceso al dinero.

El surgimiento de las fintech

Así como se creó y difundió el e-commerce –a partir de una actividad tan primitiva como la compraventa de artículos—, las fintech surgieron para popularizar los servicios financieros digitales. Desde 2015, acapararon la atención de la industria y la academia por el nivel de interacciones en dicho ecosistema.

Hablar de fintech es hablar de muchos tipos de servicios: aplicaciones de pago, préstamos, educación financiera, trading y crowdfunding, entre otros. Por la amplitud del término, mi investigación se enfoca en los servicios de acceso al crédito, específicamente en la dinámica del financiamiento persona a persona.

El P2P (persona a persona, peer to peer en inglés), como se le conoce en el argot moderno, es una dinámica que se basa en la confianza. En el caso de LendingClub, una de las plataformas representativas de esta dinámica, la desconfianza en el sistema financiero formal y la necesidad de generar rendimientos o de encontrar liquidez ha sido el motor de su éxito. El ingenio juntó los servicios financieros y tecnología basada en internet, y creó un mercado donde se encontraron individuos a quienes la banca tradicional dejó de lado.

Si bien la dinámica es sumamente interesante e implica el entendimiento del contexto social y económico, para mi investigación es más relevante entender cómo estos nuevos modelos de negocio funcionan, qué hacen tan bien para que el ecosistema fintech haya crecido de forma explosiva.

La propagación del ecosistema ha generado muchos beneficios a la población económicamente activa no bancarizada, sobre todo pensando en que se facilitaron muchos sistemas de pagos y acceso al efectivo. Desde la perspectiva del crédito, ha permitido financiamiento a personas jóvenes sin historial crediticio e incluso a personas con historiales crediticios poco favorables. Dada esta premisa, surge de nueva cuenta la pregunta de investigación que da forma a mi tesis doctoral. ¿Bajo qué criterios se consideranaceptable el nivel de riesgo de crédito de una persona que no es atractiva para la banca tradicional? ¿Cómo se filtra a los participantes de la dinámica P2P?,¡ ¿La tasa de interés equipara el nivel de riesgo que asumen los inversionistas y el riesgo reputacional de la plataforma?

Todas estas inquietudes han motivado el uso de diversas herramientas, a fin de identificar cada detalle que da forma y sentido a esta dinámica de acceso al financiamiento. El análisis de riesgo crediticio y los modelos de evaluación son un requisito formal para las instituciones financieras, pero, ¿cómo sabemos qué hacen en una fintech que no capta recursos y que no está obligada a mantener reservas de contingencia?

Entendiendo el riesgo crediticio

De forma ortodoxa, en el análisis de riesgo se implementan regresiones logísticas, probit y LDA (análisis discriminante lineal), y estos modelos se adecúan según las necesidades de cada institución, tomando en cuenta políticas de Valor en Riesgo, que es un concepto que cuantifica la exposición a pérdidas que una institución asume en su operación.

Los modelos de regresión buscan cuantificar la relación entre variable dependiente e independiente. Estos modelos en su estructura más sencilla identifican qué características presentan el grupo de clientes que cometieron impago, de forma que se puede generar una estructura de lo que resulta ser un “mal prospecto de cliente”. La información de estos modelos generalmente está ligada al historial crediticio y otra información proveniente del sistema bancario. Pero, surge la pregunta sobre qué hacer ante un negocio que acepta clientes cuya información no es como la que solicitan los bancos como requisito, y cómo se modela la probabilidad de incumplimiento.

Diversas investigaciones han abordado estas cuestiones, y, si bien no existe una respuesta concluyente, se observan múltiples propuestas que generarían valor a cualquier startup que busque su espacio en el ecosistema P2P. Mi investigación doctoral, de título preliminar “Sistemas expertos para el riesgo de crédito en lending fintech”, se centra en responder a estas preguntas.

El poder de los algoritmos

Inicialmente, evalué la base de datos de LendingClub mediante los modelos tradicionales y los resultados no fueron satisfactorios. Este primer análisis era imprescindible al momento de buscar proponer otros enfoques, ya que ofrece una perspectiva inicial de lo que podríamos encontrar más adelante con herramientas más especializadas. Por ello, recurrí a los algoritmos de clasificación de machine learning, utilizando una familia de algoritmos que se ha vuelto bastante popular en el mundo de la ciencia de datos. Los algoritmos de Gradient Boosting se han probado en diversas bases de datos de estructura similar a la de crédito; conceptualmente podemos entender a un algoritmo como un conjunto de operaciones sistemáticas enfocadas en una tarea específica.

En este caso, existe un conjunto de individuos que cumplen ciertas características que pertenecen a una o varias clases. Estos algoritmos hacen un trabajo muy eficiente para la clasificación y predicción de clase de los individuos, sobre todo ante la presencia de bases de datos con millones de observaciones, como es el caso de LendingClub.

Dentro de la familia de los algoritmos Gradient Boosting, se encuentran los siguientes:

AdaBoost
XGBoost
LightGBM
CatBoost

Otra ventaja de estos algoritmos es la transparencia de interpretación, ya que permite identificar características relevantes de las relaciones subyacentes de la base de datos, así como la calidad predictiva del algoritmo con información nueva. La calibración de hiperparámetros de estos algoritmos llega a ser una tarea bastante retadora, pero existen alternativas para transitar hacia un modelo eficiente. La calibración mediante AutoML es una herramienta que vale la pena probar en los ejercicios de ciencia de datos, ya que permite definir los mejores hiperparámetros en función del objetivo del algoritmo, sea clasificación o regresión.

Los hallazgos de mi investigación determinan porcentajes de precisión de los algoritmos de Gradient Boosting por arriba del 90%, un resultado sumamente deseable para la predicción de eventos de incumplimiento.

Estos resultados pueden ser una herramienta importante para el arranque de actividades de nuevos emprendimientos latinoamericanos, ya que la definición de modelos de crédito (y de análisis en general) es aún más retadora ante la obvia escasez de información histórica.

La autora es alumna del Doctorado en Ciencias Financieras de EGADE Business School.

Pamela Moncayo

Alumna del Doctorado en Ciencias Financieras de EGADE Business School