Fundador de Hugging Face, Wolf, habla sobre por qué los beneficios de la inteligencia artificial de código abierto superan los riesgos

En esta edición… un cofundador de Hugging Face sobre la importancia del código abierto… un Premio Nobel para Geoff Hinton y John Hopfield… un modelo de película de Meta… ¿un ‘Proyecto Manhattan’ de Trump para la IA?

Hola, y bienvenido a Eye on AI.

Ayer, tuve el privilegio de moderar una charla con Thomas Wolf, cofundador y director científico de Hugging Face, en la CogX Global Leadership Summit en el Royal Albert Hall de Londres.

Hugging Face, por supuesto, es el principal repositorio de modelos de IA de código abierto del mundo, el GitHub de la IA, por así decirlo. Fundada en 2016 (en Nueva York, como Wolf me recordó en el escenario cuando erróneamente dije que la empresa se había fundado en París), la empresa fue valorada en $4.5 mil millones en su última ronda de financiamiento de $235 millones en agosto de 2023.

Fue fascinante escuchar a Wolf hablar sobre lo que considera la importancia vital tanto de los modelos de IA de código abierto como de asegurarse de que la IA sea en última instancia una tecnología exitosa e impactante. Estos fueron algunos conocimientos clave de nuestra conversación.

Menor es mejor

Wolf argumentó que era la comunidad de código abierto la que estaba liderando el esfuerzo para producir modelos de IA más pequeños que funcionan tan bien como los más grandes. Señaló que la nueva familia de modelos Llama 3.2 de Meta incluye dos modelos pequeños, con 1 billón y 3 billones de parámetros, en comparación con decenas de miles de millones o incluso cientos de miles de millones, que funcionan tan bien como modelos mucho más grandes en muchas tareas basadas en texto, incluida la sumarización.

Los modelos más pequeños, a su vez, Wolf argumentó que serían esenciales por dos razones. Uno, permitirían a las personas ejecutar IA directamente en teléfonos inteligentes, tabletas y tal vez eventualmente en otros dispositivos, sin tener que transmitir datos a la nube. Eso era mejor para la privacidad y la seguridad de los datos. Y permitiría a las personas disfrutar de los beneficios de la IA incluso si no tenían una conexión de banda ancha constante y de alta velocidad.

Más importante aún, los modelos más pequeños consumen menos energía que los modelos grandes que se ejecutan en centros de datos. Eso es importante para combatir la huella de carbono y el uso de agua de la IA en crecimiento.

Democratizar la IA

Críticamente, Wolf ve la IA de código abierto y los modelos pequeños como fundamentalmente “democratizadores” de la tecnología. A él, al igual que a muchos, le preocupa hasta qué punto la IA simplemente ha reforzado el poder de los grandes gigantes tecnológicos, como Microsoft, Google, Amazon y, sí, Meta, a pesar de que ha hecho más por la IA de código abierto que cualquier otro.

Mientras que OpenAI y, en menor medida, Anthropic, han surgido como actores clave en el desarrollo de capacidades de IA de vanguardia, solo han podido hacerlo a través de asociaciones cercanas y relaciones de financiamiento con gigantes tecnológicos (Microsoft en el caso de OpenAI; Amazon y Google en el caso de Anthropic). Muchas de las otras compañías que trabajan en LLM propietarios, como Inflection, Character.ai, Adept, Aleph Alpha, por nombrar solo algunas, han abandonado la construcción de los modelos más capaces.

La única forma de garantizar que solo unas pocas empresas no monopolicen esta tecnología vital es hacerla libremente disponible para desarrolladores e investigadores como software de código abierto, dijo Wolf. Los modelos de código abierto, y en particular los modelos de código abierto más pequeños, también daban a las empresas más control sobre cuánto estaban gastando, lo cual consideraba crítico para que las empresas realmente obtuvieran ese esquivo retorno de la inversión de la IA.

Más seguro a largo plazo

Presioné a Wolf sobre los riesgos de seguridad de la IA de código abierto. Dijo que otros tipos de software de código abierto, como Linux, han terminado siendo más seguros que el software propietario porque hay tantas personas que pueden escrutar el código, encontrar vulnerabilidades de seguridad y luego descubrir cómo solucionarlas. Dijo que pensaba que la IA de código abierto resultaría ser igual.

LEAR  ¿Puede la película de He-Man de Travis Knight hacer por los niños lo que Barbie de Greta Gerwig hizo por las niñas? | Cine

Le dije a Wolf que tenía menos confianza que él. En este momento, si un atacante tiene acceso a los pesos de un modelo, es sencillo crear comandos, algunos de los cuales podrían parecer gibberish para un humano, diseñados para hacer que ese modelo salte sus límites y haga algo que no debería, ya sea revelar datos propietarios, escribir malware o dar al usuario una receta para un arma biológica.

Además, la investigación ha demostrado que un atacante puede usar los pesos de los modelos de código abierto para ayudar a diseñar ataques similares de “inyección de comandos” que también funcionarán razonablemente bien contra los modelos propietarios. Por lo tanto, los modelos abiertos no solo son más vulnerables, sino que también están haciendo que todo el ecosistema de IA sea menos seguro.

Wolf reconoció que podría haber un compromiso, con los modelos abiertos siendo más vulnerables a corto plazo hasta que los investigadores pudieran descubrir cómo protegerlos mejor. Pero insistió en que a largo plazo, tener tantos ojos en un modelo haría que la tecnología fuera más segura.

Apertura, en un espectro

También le pregunté a Wolf sobre la controversia sobre la denominación del software de IA de Meta como de código abierto, cuando los puristas del código abierto critican a la empresa por imponer algunas restricciones en los términos de la licencia de sus modelos de IA y también por no revelar completamente los conjuntos de datos en los que se entrenan sus modelos. Wolf dijo que era mejor ser menos dogmático y pensar en la apertura como existente en un espectro, con algunos modelos, como los de Meta, siendo “semiabiertos”.

Mejores pruebas de referencia

Una de las cosas por las que Hugging Face es más conocido son sus clasificaciones, que clasifican los modelos de código abierto entre sí según su rendimiento en ciertas pruebas de referencia. Si bien las clasificaciones son útiles, lamenté el hecho de que casi no existan que busquen mostrar qué tan bien funcionan los modelos de IA como ayuda para el trabajo y la inteligencia humanos. Es en este papel de “copiloto” que los modelos de IA han encontrado sus mejores usos hasta ahora. Y sin embargo, casi no hay pruebas de referencia sobre qué tan bien funcionan los humanos cuando son asistidos por diferentes software de IA. En lugar de eso, las clasificaciones siempre enfrentan a los modelos entre sí y contra el rendimiento a nivel humano, lo que tiende a enmarcar la tecnología como un reemplazo de la inteligencia y el trabajo humanos.

Wolf estuvo de acuerdo en que sería genial tener pruebas de referencia que analicen cómo lo hacen los humanos cuando son asistidos por la IA, y señaló que algunos modelos iniciales para la codificación tenían esas pruebas de referencia, pero dijo que estas pruebas de referencia eran más costosas de ejecutar porque tenías que pagar a los probadores humanos, razón por la cual pensaba que pocas empresas las intentaban.

Ganando dinero

Curiosamente, Wolf también me dijo que Hugging Face está yendo en contra de la tendencia de las compañías de IA: es rentable. (La empresa gana dinero con proyectos de consultoría y vendiendo herramientas para desarrolladores de empresas). En contraste, se piensa que OpenAI está quemando miles de millones de dólares. Tal vez realmente hay un futuro rentable en regalar modelos de IA.

Con eso, aquí hay más noticias de IA.

LEAR  Black Hills Corp en camino con plan de capital de $800 millones por Investing.com

Jeremy Kahn
[email protected]
@jeremyakahn

Antes de entrar en las noticias. Si quieres aprender más sobre IA y sus probables impactos en nuestras empresas, nuestros trabajos, nuestra sociedad e incluso en nuestras vidas personales, considera comprar una copia de mi libro, Mastering AI: Una guía de supervivencia para nuestro futuro superpotenciado. Ya está disponible en los EE. UU. de Simon & Schuster, y puedes pedir una copia hoy aquí. En el Reino Unido y los países de la Commonwealth, puedes comprar la edición británica de Bedford Square Publishers aquí.

AI EN LAS NOTICIAS

Un Premio Nobel para los pioneros de las redes neuronales Hinton y Hopfield. La Real Academia Sueca de las Ciencias otorgó el Premio Nobel de Física al “padre” del aprendizaje profundo Geoffrey Hinton y al pionero del aprendizaje automático John Hopfield por su trabajo en las redes neuronales artificiales que sustentan la revolución de la IA actual. Puedes leer más de mi colega de Fortune, David Meyer, aquí.

Meta presenta un modelo de generación de películas de IA. La empresa de redes sociales presentó Movie Gen, un potente modelo generativo de IA que puede crear videos cortos de alta calidad a partir de comandos de texto. Los comandos de texto también se pueden utilizar para editar los videos y el modelo puede crear automáticamente efectos de sonido o música generados por IA apropiados para la escena, un avance sobre otro software de texto a video que hasta ahora solo ha podido crear videos sin sonido, informó el New York Times. El modelo competirá con los modelos Sora de OpenAI, Dream Machine de Luma y Gen 3 Alpha de Runway.

Otro investigador de OpenAI cambia de bando, esta vez a Google DeepMind. Tim Brooks, quien co-lideró el desarrollo del modelo de generación de texto a video de OpenAI, Sora, anunció en X que estaba dejando OpenAI para unirse a Google DeepMind. Brooks se une a una lista creciente de prominentes investigadores de OpenAI que recientemente han dejado la empresa. TechCrunch tiene más aquí.

Amazon implementa un entrenador de IA para recursos humanos. Según una historia en The Information, citando a Beth Galetti, vicepresidenta sénior de experiencia y tecnología de personas de Amazon, hablando en una conferencia. Dijo que la empresa entrenó un modelo generativo de IA en evaluaciones de rendimiento de empleados y evaluaciones de promoción para actuar como entrenador para empleados que buscan consejos sobre la mejor manera de abordar conversaciones difíciles con gerentes o colegas directos.

OpenAI se aleja de Microsoft para sus demandas de centros de datos. The Information informa, citando a personas que han escuchado al CEO de OpenAI, Sam Altman, y a la directora financiera, Sara Friar, discutiendo planes para reducir la dependencia de la empresa en los grupos de GPU de Microsoft. OpenAI recientemente firmó un acuerdo para alquilar tiempo en GPU en un centro de datos en Abilene, Texas, que está siendo desarrollado por el rival de Microsoft, Oracle. La publicación dijo que OpenAI está preocupada de que Microsoft no pueda darle acceso a suficiente capacidad de centro de datos para mantenerse al día de los competidores, particularmente X.ai de Elon Musk. Musk ha presumido recientemente de haber creado uno de los mayores grupos de Nvidia GPUs del mundo.

EYE ON INVESTIGACIÓN DE IA

¿Quizás la próxima predicción de token funciona para todo? Los transformadores que simplemente predicen el siguiente token en una secuencia han demostrado ser sorprendentemente poderosos para construir grandes modelos de lenguaje (LLMs). Pero para la generación de texto a imagen, texto a video y texto a audio, a menudo se han utilizado otros métodos, a menudo en combinación con un LLM. Para las imágenes, esto es a menudo un modelo de difusión, donde el sistema aprende a tomar una imagen que ha sido distorsionada y desenfocada con ruido estadístico y luego eliminar ese ruido para restaurar la imagen original nítida. A veces esto es lo que se llama una técnica compositiva, donde el modelo aprende de imágenes con etiquetas de texto. Pero los investigadores de la Academia de Inteligencia Artificial de Beijing han publicado un documento que muestra que simplemente entrenar a un modelo para predecir el siguiente token y entrenarlo en datos multimodales que incluyen texto, imágenes fijas y video, puede producir un modelo de IA que es tan bueno como aquellos entrenados de una manera más complicada. Los investigadores llaman a su modelo Emu3. Puedes leer el documento de investigación en arxiv.org aquí y ver un blog con ejemplos de sus salidas aquí.

LEAR  Economista jefe del BCE advierte que el objetivo de inflación aún no está seguro.

FORTUNE SOBRE IA

Conoce al ex vicepresidente de Amazon que impulsa la transformación tecnológica de Hershey —por John Kell

¿Médicos y abogados, necesitan un trabajo secundario? La startup Kiva AI paga criptomonedas a expertos en el extranjero que contribuyen a su servicio de IA “humana en el bucle” —por Catherine McGrath

Por qué Medtronic quiere que cada unidad de negocio tenga un plan para la IA —por John Kell

El ejecutivo de Google DeepMind dice que la IA aumentará la eficiencia tanto que se espera que maneje el 50% de las solicitudes de información en su departamento legal —por Paolo Confino

Los asistentes de IA te están delatando por hablar mal de tus compañeros de trabajo —por Sydney Lake

CALENDARIO DE IA

Oct. 22-23: TedAI, San Francisco

Oct. 28-30: Voice & AI, Arlington, Va.

Nov. 19-22: Microsoft Ignite, Chicago

Dec. 2-6: AWS re:Invent, Las Vegas

Dec. 8-12: Neural Information Processing Systems (Neurips) 2024, Vancouver, Columbia Británica

Dec. 9-10: Fortune Brainstorm AI, San Francisco (regístrate aquí)

ALIMENTO PARA EL CEREBRO

¿Si Trump gana, veremos un Proyecto Manhattan para construir AGI y ASI? Algunas personas piensan que sí después de notar que la hija del ex Presidente Donald Trump, Ivanka, publicó aprobadamente en las redes sociales sobre un monográfico publicado por el ex investigador de OpenAI, Leopold Aschenbrenner. El 25 de septiembre, Ivanka publicó en X que el tratado de extensión de libro de Aschenbrenner, “Conciencia Situacional”, era “una lectura excelente e importante”.

En el documento, que Aschenbrenner publicó en línea en junio, predice que OpenAI o uno de sus rivales logrará la inteligencia artificial general (AGI) antes de que termine la década, siendo 2027 el año más probable. También dice que los EE. UU. y sus aliados deben vencer a China en la carrera para desarrollar AGI y luego la superinteligencia artificial (ASI), una tecnología aún más poderosa que sería más inteligente que toda la humanidad combinada. La única forma de garantizar esto, argumenta Aschenbrenner, es que el gobierno de EE. UU. se involucre directamente en asegurar los principales laboratorios de IA y para que lance un esfuerzo similar al Proyecto Manhattan liderado y financiado por el gobierno para desarrollar ASI.

Hasta ahora, la plataforma del Partido Republicano en lo que respecta a la IA ha sido fuertemente influenciada por los capitalistas de riesgo de Silicon Valley más afiliados al movimiento e/acc. Sus creyentes sostienen la idea de que los beneficios de la IA súper poderosa superan con creces cualquier riesgo, por lo que no debería haber regulación de la IA en absoluto. Trump ha prometido rescindir inmediatamente la orden ejecutiva de IA del Presidente Joe Biden, que impuso requisitos de informes y seguridad a las empresas que trabajan en los modelos de IA más avanzados. Sería irónico entonces, si Trump gana las elecciones y, influenciado por las opiniones de Ivanka, y a su vez de Aschenbrenner, termina nacionalizando realmente el esfuerzo de AGI. Me pregunto qué piensa sobre esa idea el cuñado de Ivanka, Joshua Kushner, socio gerente de Thrive Capital, que acaba de liderar la ronda de financiamiento récord de $6.6 mil millones de OpenAI.