La inferencia de IA en el borde se refiere a la ejecución de modelos de aprendizaje automático (ML) entrenados más cerca de los usuarios finales en comparación con la inferencia de IA en la nube tradicional. La inferencia en el borde acelera el tiempo de respuesta de los modelos de ML, lo que permite aplicaciones de IA en tiempo real en industrias como los videojuegos, la atención médica y el comercio minorista.
¿Qué es la inferencia de IA en el borde?
Antes de analizar la inferencia de IA específicamente en el borde, vale la pena comprender qué es la inferencia de IA en general. En el ciclo de desarrollo de IA/ML, la inferencia es donde un modelo de ML entrenado realiza tareas en datos nuevos, previamente no vistos, como hacer predicciones o generar contenido. La inferencia de IA ocurre cuando los usuarios finales interactúan directamente con un modelo de ML incrustado en una aplicación. Por ejemplo, cuando un usuario ingresa una solicitud a ChatGPT y recibe una respuesta, el momento en que ChatGPT está “pensando” es cuando se está produciendo la inferencia, y el resultado es el resultado de esa inferencia.
La inferencia de IA en el borde es un subconjunto de la inferencia de IA donde un modelo de ML se ejecuta en un servidor cerca de los usuarios finales; por ejemplo, en la misma región o incluso en la misma ciudad. Esta proximidad reduce la latencia a milisegundos para obtener una respuesta más rápida del modelo, lo cual es beneficioso para aplicaciones en tiempo real como el reconocimiento de imágenes, la detección de fraudes o la generación de mapas de juegos.