Investigadores de Microsoft están enseñando a la inteligencia artificial a leer hojas de cálculo.

Puede ser difícil hacer que un modelo de inteligencia artificial generativa entienda una hoja de cálculo. Para tratar de resolver este problema, los investigadores de Microsoft publicaron un documento el 12 de julio en Arxiv describiendo SpreadsheetLLM, un marco de codificación que permite a los modelos de lenguaje grandes “leer” hojas de cálculo.

SpreadsheetLLM podría “transformar la gestión y análisis de datos de hojas de cálculo, allanando el camino para interacciones de usuario más inteligentes y eficientes”, escribieron los investigadores.

Una ventaja de SpreadsheetLLM para las empresas sería utilizar fórmulas en las hojas de cálculo sin tener que aprender a usarlas haciendo preguntas al modelo de IA en lenguaje natural.

¿Por qué las hojas de cálculo representan un desafío para los LLMs?

Las hojas de cálculo son un desafío para los LLMs por varias razones.

Las hojas de cálculo pueden ser muy grandes, superando el número de caracteres que un LLM puede procesar a la vez.
Las hojas de cálculo son “disposiciones y estructuras bidimensionales”, como dice el informe, en lugar de la entrada “lineal y secuencial” con la que los LLMs funcionan bien.
Los LLMs generalmente no están entrenados para interpretar direcciones de celdas y formatos específicos de hojas de cálculo.

Los investigadores de Microsoft utilizaron una técnica de múltiples pasos para analizar hojas de cálculo.

Hay dos partes principales de SpreadsheetLLM:

SheetCompressor, que es un marco para reducir el tamaño de las hojas de cálculo a formatos que los LLMs puedan entender.
Chain of Spreadsheet, que es una metodología para enseñar a un LLM a identificar las partes correctas de una hoja de cálculo comprimida a “mirar” cuando se le presenta una pregunta y para generar una respuesta.

LEAR La inteligencia artificial de generación AI exige que enseñemos pensamiento crítico.

SheetCompressor tiene tres módulos:

Anclajes estructurales que ayudan a los LLMs a identificar las filas y columnas en la hoja de cálculo.
Un método para reducir el número de tokens que cuesta al LLM interpretar la hoja de cálculo.
Una técnica para mejorar la eficiencia mediante la agrupación de celdas similares.

Utilizando estos módulos, el equipo redujo los tokens necesarios para la codificación de hojas de cálculo en un 96%. Esto, a su vez, permitió una ligera mejora (12.3%) sobre el trabajo de otro equipo de investigación líder en ayudar a los LLMs a entender hojas de cálculo. Los investigadores probaron su método de identificación de hojas de cálculo con estos LLMs:

GPT-4 y GPT-3.5 de OpenAI.
Llama 2 y Llama 3 de Meta.
Phi-3 de Microsoft.
Mistral-v2 de Mistral AI.

Para las capacidades de Chain of Spreadsheet, utilizaron GPT-4.

¿Qué significa SpreadsheetLLM para los esfuerzos de IA de Microsoft?

La ventaja obvia para Microsoft aquí es permitir que su asistente de IA Copilot, que funciona en muchas aplicaciones de la suite Microsoft 365, haga más en Excel. SpreadsheetLLM representa el esfuerzo continuo por hacer que la IA generativa sea práctica, y abrir Excel a personas que no han sido entrenadas en sus funciones más avanzadas podría ser un buen nicho para que la IA generativa se expanda.

USO EN EL MUNDO REAL Y PRÓXIMOS PASOS PARA ESTA INVESTIGACIÓN DE MICROSOFT

Una mejora del 12.3% sobre los hallazgos de un equipo de investigación líder anterior es más académicamente significativa que económicamente significativa por ahora. La IA generativa es conocida por inventar cosas, y las alucinaciones que se suceden en una hoja de cálculo podrían hacer inútiles grandes cantidades de datos. Como señalan los investigadores, lograr que un LLM entienda el formato de una hoja de cálculo, es decir, cómo suele ser y cómo funciona, es diferente de lograr que el LLM genere datos comprensibles y precisos dentro de esas celdas.

LEAR COP29: Expertos dicen que las conversaciones sobre el clima de la ONU "ya no sirven para su propósito"

Además, esta metodología requiere mucha potencia informática y múltiples pasadas a través de un LLM para generar una respuesta. Además, es posible que el mago de Excel de tu oficina pueda obtener una respuesta en unos minutos sin utilizar casi tanta energía.

En el futuro, el equipo de investigación quiere incluir una forma de codificar detalles como el color de fondo de las celdas y profundizar la comprensión de los LLM sobre cómo se relacionan las palabras dentro de las celdas.

TechRepublic se ha puesto en contacto con Microsoft para obtener más información.