¿Qué le pareció este contenido?
Seleccione el modelo fundacional adecuado para su <i>startup</i>
Cuando las startups incorporan inteligencia artificial (IA) generativa en sus productos, la selección de un modelo fundacional (FM) es uno de los primeros pasos y de los más importantes. Un FM es un gran modelo de machine learning (ML) que se entrena con anterioridad en función de una gran cantidad de datos a escala. El resultado es un modelo que se puede adaptar a una amplia gama de tareas posteriores.
La selección del modelo tiene implicaciones estratégicas para la forma en que se construye una startup. El modelo que elija puede afectar todo, desde la experiencia del usuario y la comercialización hasta la contratación y la rentabilidad. Los modelos varían en función de diversos factores, entre los que se incluyen los siguientes:
- Nivel de personalización: la capacidad de cambiar la salida de un modelo con datos nuevos, que van desde enfoques basados en indicaciones hasta un reentrenamiento completo del modelo
- Tamaño del modelo: cuánta información aprendió el modelo según lo definido por el recuento de parámetros
- Opciones de inferencia: desde el despliegue autogestionado hasta las llamadas a la API
- Acuerdos de licencia: algunos acuerdos pueden restringir o prohibir el uso comercial
- Ventanas de contexto: cuánta información puede contener una sola indicación
- Latencia: cuánto tiempo tarda un modelo en generar una salida
Las siguientes secciones muestran qué debe tener en cuenta al seleccionar un FM que satisfaga las necesidades de su startup.
Parámetros de referencia específicos para cada aplicación
Al evaluar el rendimiento de diferentes FM para su caso de uso, un paso importante en el proceso es establecer una estrategia de referencia. Esto ayuda a cuantificar en qué medida el contenido se ajusta a sus expectativas.
“Existe una gran cantidad de modelos, que van desde reproductores de código cerrado a modelos de código abierto como Dolly, Alpaca y Vicuña. Cada uno de estos modelos tiene sus propias ventajas y desventajas: es fundamental elegir el mejor modelo para el trabajo”, explica Noa Flaherty, chief technology officer (CTO) y cofundador de Vellum. “Ayudamos a las empresas a implementar una amplia variedad de casos de uso de IA y comprobamos de primera mano que cada caso de uso tiene requisitos diferentes en cuanto a coste, calidad, latencia, ventana de contexto y privacidad”.
Los parámetros de referencia generalizados (como la Evaluación holística de los modelos de lenguaje de Stanford) son un excelente punto de partida para algunas startups, ya que ayudan a priorizar los modelos fundacionales con los que empezar a experimentar. Sin embargo, los puntos de referencia generalizados pueden resultar insuficientes para las startups que se centran en crear una base de clientes específica.
Por ejemplo, si su modelo necesita resumir citas médicas o comentarios de los clientes, el modelo debe evaluarse en función de su capacidad para realizar estas tareas específicas. “Para establecer un parámetro de referencia personalizado, se necesita un flujo de trabajo para la experimentación rápida: en general, mediante prueba y error en una amplia variedad de escenarios. Es habitual que se sobreajuste el modelo o el indicador para un caso de prueba específico y se piense que se trata del modelo adecuado y que, una vez puesto en producción, no funcione”, aconseja Noa. El parámetro personalizado puede incluir técnicas como el cálculo de las puntuaciones de BLEU y ROUGE. Estas son dos métricas que ayudan a las startups a cuantificar el número de correcciones necesarias para aplicarlas al texto generado por la IA antes de que se apruebe su uso en aplicaciones con interacción humana.
Las métricas de calidad y la evaluación de los modelos son fundamentales, razón por la cual Noa fundó Vellum en primer lugar. Esta startup respaldada por Y Combinator centra su oferta de productos en la experimentación. Según Noa: “cuanto más pueda comparar o contrastar modelos en una variedad de casos que se parezcan a los que verá en producción, mejor será una vez que estén en producción”.
Los modelos más pequeños y específicos van en aumento
Una vez que se hayan establecido los parámetros de referencia de calidad, puede empezar a experimentar con modelos más pequeños diseñados para tareas específicas, como seguir instrucciones o resumir. Estos modelos específicos pueden reducir de forma significativa el recuento de parámetros de un modelo y, al mismo tiempo, mantener su capacidad para realizar tareas específicas de un dominio. Por ejemplo, la startup GoCharlie se asoció con SRI para desarrollar un modelo multimodal específico de marketing con 1000 millones de parámetros.
“Los modelos genéricos nunca resolverán de verdad las necesidades del usuario final, mientras que los modelos diseñados para satisfacer esas necesidades serán los más eficaces”, explica Kostas Hatalis, chief executive officer (CEO) y cofundador de GoCharlie. “Creemos que los modelos diseñados en particular para sectores verticales específicos, como el marketing, son cruciales para comprender las necesidades reales de los usuarios finales”.
La comunidad de investigación de código abierto impulsa una gran cantidad de innovaciones en torno a modelos más pequeños y específicos, como el Alpaca de Stanford o el Falcon 40B del Instituto de Innovación Tecnológica. La tabla de clasificación de Open LLM de Hugging Face ayuda a clasificar estos modelos de código abierto en una serie de parámetros de referencia generales. Estos modelos más pequeños ofrecen parámetros de referencia comparables sobre las tareas que siguen instrucciones, con una fracción del recuento de parámetros y los recursos de entrenamiento.
A medida que las startups personalizan sus modelos para tareas específicas de un dominio, los FM de código abierto les permiten personalizar y ajustar aún más sus sistemas con sus propios conjuntos de datos. Por ejemplo, las soluciones de ajuste preciso con eficiencia de parámetros (PERT) de Hugging Face mostraron cómo ajustar una pequeña cantidad de parámetros del modelo y, al mismo tiempo, congelar la mayoría de los demás parámetros de los LLM con entrenamiento previo, puede reducir de forma considerable los costes computacionales y de almacenamiento. Estas técnicas de ajuste preciso basadas en la adaptación de dominios no suelen ser posibles con el FM propio basado en la API, lo que puede limitar la profundidad con la que una startup puede crear un producto diferenciado.
Centrar el uso en tareas específicas también hace que los conocimientos del FM entrenados con anterioridad en dominios como matemática, historia o medicina, se vuelvan, por lo general, inútiles para la startup. Algunas startups optan por limitar de forma intencional el ámbito del FM a un dominio específico mediante la implementación de límites en sus modelos, como los NeMo Guardrails de código abierto de Nvidia. Estos límites ayudan a evitar que los modelos tengan alucinaciones: resultados irrelevantes, incorrectos o inesperados.
La flexibilidad de inferencia es importante
Otra consideración clave en la selección del modelo es cómo se puede servir el modelo. Los modelos de código abierto, así como los modelos propietarios autogestionados, ofrecen la flexibilidad de personalizar cómo y dónde se alojan los modelos. El control directo de la infraestructura de un modelo puede ayudar a las startups a garantizar la fiabilidad de sus aplicaciones con prácticas recomendadas, como el escalado automático y la redundancia. La administración de la infraestructura de alojamiento también ayuda a garantizar que todos los datos generados y consumidos por un modelo estén contenidos en entornos de nube dedicados que cumplan con los requisitos de seguridad establecidos por la startup.
Los modelos más pequeños y específicos que mencionamos con anterioridad, también requieren un hardware menos intensivo en cómputo, lo que ayuda a las startups a optimizar la economía de las unidades y el rendimiento de los precios. En un experimento reciente, AWS calculó un ahorro de hasta un 50 % en los costes de inferencia al utilizar instancias de AWS Graviton3 basadas en ARM para modelos de código abierto, en comparación con instancias similares de Amazon Elastic Compute Cloud (EC2) .
Estos procesadores AWS Graviton3 también utilizan hasta un 60 % menos de energía para obtener el mismo rendimiento que las instancias Amazon EC2 comparables, lo que ayuda a las startups que consideran el impacto ambiental de elegir un hardware de inferencia que consume mucha energía. Un estudio del Foro Económico Mundial detalló el consumo de energía de los centros de datos. Las implicaciones medioambientales, que antes se consideraban una externalidad, son ahora la prioridad de muchas personas y AWS permite a las startups cuantificar su impacto medioambiental mediante ofertas como el Informe sobre la huella de carbono, que ayuda a las empresas a comparar la eficiencia energética de distintas selecciones de hardware.
Conclusión
Aaron Melgar
Aaron potencia el ecosistema de startups y capital de riesgo de IA/ML en AWS, centrándose en el crecimiento empresarial en las primeras etapas. Fue Fundador, Gerente de productos de la serie A, director de Machine Learning y Consultor de estrategia. Es un estadounidense de primera generación al que le encanta el tenis, el golf, los viajes y el intercambio de recomendaciones de audiolibros sobre economía, psicología o negocios.
¿Qué le pareció este contenido?