La empresa matriz de TikTok lanzó un raspador web que está devorando los datos en línea del mundo 25 veces más rápido que OpenAI.

ByteDance parece estar ansioso por recuperar el tiempo perdido cuando se trata de rastrear la web en busca de datos necesarios para entrenar sus modelos de IA generativa.

La empresa matriz con sede en China de la aplicación de video TikTok lanzó su propio rastreador web o bot rastreador, llamado Bytespider, en algún momento de abril, según investigaciones de Kasada, una empresa especializada en gestión de bots para empresas con datos en línea. La existencia del bot también fue confirmada por Dark Visitors, que monitorea bots rastreadores.

El bot de ByteDance se ha convertido rápidamente en uno de los rastreadores más agresivos en Internet, si no el más agresivo, según muestra la investigación. Está recopilando datos a un ritmo que es muchas veces mayor que el de otras empresas importantes, como Google, Meta, Amazon, OpenAI y Anthropic, que utilizan sus propios bots rastreadores para ayudar a crear y mejorar sus grandes modelos de lenguaje o multimodales, conocidos como LLM o LMM.

Sam Crowther, CEO de Kasada, dijo que desde que apareció Bytespider, ha estado recopilando datos a aproximadamente 25 veces la velocidad de GPTbot, que recopila datos para la plataforma ChatGPT de OpenAI y los modelos subyacentes, por ejemplo. Bytespider ha estado recopilando datos a 3,000 veces la velocidad de ClaudeBot, de Anthropic, que opera la plataforma Claude.

A medida que han pasado los meses, Bytespider se ha vuelto aún más agresivo, según Kasada. Los datos muestran enormes picos en la actividad de rastreo de Bytespider durante cada una de las últimas seis semanas.

Los representantes de TikTok y ByteDance no respondieron a correos electrónicos en busca de comentarios.

LEAR  Morgan Stanley nombra acciones para aprovechar la superciclo de actualización en el ámbito de la inteligencia artificial.

El rastreo agresivo de ByteDance se produce a pesar de la posibilidad de que TikTok sea prohibido en los EE. UU en los próximos meses. El presidente Joe Biden ha firmado legislación que requiere que ByteDance venda TikTok, debido a preocupaciones de seguridad nacional, o lo cierre.

El bot Bytespider, al igual que los de OpenAI y Anthropic, no respeta robots.txt, según la investigación. Robots.txt es una línea de código que los editores pueden colocar en un sitio web que, si bien no es legalmente vinculante de ninguna manera, se supone que señala a los bots rastreadores que no pueden tomar los datos de ese sitio web.

El web scraping se remonta décadas atrás, principalmente por motores de búsqueda para recopilar enlaces a páginas web. Pero el auge de las herramientas de IA generativa ha añadido una nueva dimensión y ha convertido la práctica en una fuente principal de demandas y controversias. Las personas y organizaciones cuyo trabajo ha sido rastreado argumentan que se está infringiendo su derecho de autor en el proceso. Todos los modelos que subyacen a las herramientas de IA generativa fueron entrenados en grandes cantidades de datos en línea, efectivamente todo lo disponible en la web, especialmente información escrita. Las empresas tecnológicas utilizan bots rastreadores para básicamente copiarlo todo de forma gratuita y ponerlo en sus conjuntos de datos.

“Es como si estuvieran tratando desesperadamente de ponerse al día”, dijo Crowther sobre el rastreo agresivo realizado por Bytespider. Justo el año pasado, ByteDance estaba supuestamente tan rezagado en la carrera de la IA generativa que estaba utilizando OpenAI para ayudar a construir su propio LLM de ByteDance, lo cual va en contra de los términos de servicio de OpenAI. A principios de este año, ByteDance lanzó un LLM basado en chat llamado Duabo, pero el trabajo en ese modelo habría sido completado antes de la acumulación de datos de entrenamiento más recientes recopilados por Bytespider.

LEAR  Ventajas y desventajas de los profesores que salen de su zona de confort (opinión)

Es “evidente” que ByteDance está trabajando en un nuevo LLM, según una persona familiarizada con la empresa. En cuanto a lo que ByteDance planea hacer con un nuevo LLM, una persona familiarizada con las ambiciones de la empresa dijo que uno de los objetivos tiene que ver con la función de búsqueda de TikTok.

La semana pasada, TikTok lanzó una actualización de su función de búsqueda actual centrada en palabras clave para anuncios, básicamente permitiendo a los anunciantes buscar en tiempo real las palabras que son tendencia en TikTok. Permite a los especialistas en marketing construir un anuncio con palabras clave relevantes que presumiblemente ayudarían a que el anuncio aparezca en las pantallas de más usuarios.

Un nuevo modelo de IA con datos sobre tendencias y temas más recientes de Internet podría expandir y mejorar aún más el entorno de búsqueda de TikTok, según la persona familiarizada con las ambiciones de la empresa.

“Dado el público y la cantidad de uso, TikTok con un entorno de búsqueda que es un espacio completamente subastable con palabras clave y temas, eso sería muy interesante para muchas personas que gastan una tonelada de dinero con Google en este momento”, dijo la persona.

¿Eres un empleado de TikTok o ByteDance o alguien con información o un consejo para compartir? Ponte en contacto con Kali Hays de forma segura a través de Signal en el +1-949-280-0267 o en [email protected].

Boletín recomendado

Hoja de datos: Mantente al tanto del negocio tecnológico con un análisis reflexivo de los nombres más importantes de la industria.

Regístrate aquí.”