Arcee AI lanza Trinity, un modelo de lenguaje abierto de 400 mil millones de parámetros
Arcee AI presenta Trinity
Arcee AI, una pequeña startup estadounidense con aproximadamente treinta empleados, anunció el lanzamiento de Trinity, un modelo de lenguaje grande (LLM) de 400 mil millones de parámetros. El modelo se ofrece bajo una licencia Apache permissiva, lo que lo hace permanentemente de código abierto. Según la empresa, Trinity compite con Llama 4 Maverick 400B de Meta y el modelo GLM-4.5 de origen chino en evaluaciones de benchmark que se centran en el rendimiento del modelo base con un mínimo de entrenamiento posterior.
Rendimiento y capacidades
Los resultados de benchmark iniciales indican que el modelo base de Trinity se mantiene firme contra los modelos líderes en varios dominios, incluyendo codificación, matemáticas, razonamiento común, conocimiento factual y razonamiento lógico. Actualmente, Trinity solo admite entrada y salida de texto, pero la hoja de ruta incluye un modelo de visión y una variante de speech-to-text. Esto contrasta con Llama 4 Maverick de Meta, que ya admite texto e imágenes.
Público objetivo y posición en el mercado
El público objetivo principal de la startup son los desarrolladores y los investigadores académicos. Arcee AI busca proporcionar una alternativa de alta calidad y de código abierto a los modelos que son propietarios o están sujetos a restricciones de licencia. La empresa enfatiza que un modelo de código abierto permanente con licencia Apache puede ganar los "corazones y mentes" de los desarrolladores estadounidenses que son reluctantes a depender de modelos abiertos de China.
Variantes del modelo y disponibilidad
Trinity se lanzará en tres versiones distintas. "Trinity Large Preview" es un modelo de seguimiento de instrucciones ligeramente entrenado posteriormente destinado a un uso de chat general. "Trinity Large Base" es el modelo base puro sin entrenamiento posterior. "TrueBase" elimina todos los datos de instrucción y el entrenamiento posterior, lo que permite a las empresas y los investigadores personalizar el modelo sin heredar reglas preestablecidas. Todas las versiones se pueden descargar de forma gratuita, y se espera que se lance una oferta de API alojada con precios competitivos dentro de seis semanas.
Infraestructura de entrenamiento y costo
El modelo se entrenó durante un período de seis meses utilizando 2.048 GPU Nvidia Blackwell B300. El costo total para entrenar a Trinity fue de 20 millones de dólares, financiado con los aproximadamente 50 millones de dólares que la empresa ha recaudado hasta la fecha. El esfuerzo de entrenamiento fue liderado por el director de tecnología Lucas Atkins, quien previamente construyó agentes de voz para aplicaciones automotrices.
Antecedentes y estrategia de la empresa
El fundador y director ejecutivo Mark McQuade, un ex empleado temprano de Hugging Face, explicó que Arcee AI originalmente se centró en servicios de entrenamiento posterior y personalización para clientes empresariales grandes como SK Telecom. La empresa tomaba modelos de código abierto existentes - Llama, Mistral, Qwen - y los mejoraba a través del aprendizaje de refuerzo y otras técnicas. A medida que la base de clientes se expandió, creció la necesidad de un modelo propietario, lo que llevó a la decisión de desarrollar Trinity.
Filosofía de código abierto
Arcee AI eligió la licencia Apache para asegurarse de que Trinity permanezca completamente de código abierto, diferenciándolo de modelos como Llama de Meta, que utiliza una licencia controlada por Meta con caveats comerciales y de uso. La startup argumenta que un modelo verdaderamente abierto y de vanguardia es esencial para las empresas estadounidenses que son cautelosas al depender de modelos de origen chino.
Perspectiva futura
Más allá de Trinity, Arcee AI planea continuar expandiendo su suite de modelos con capacidades multimodales y ofrecer servicios de API alojada a tarifas competitivas con los principales proveedores de servicios en la nube. La empresa también mantiene una línea de negocios para servicios de entrenamiento posterior y personalización, aprovechando su experiencia en la personalización de modelos para aplicaciones empresariales específicas.
Usado: News Factory APP - descubrimiento de noticias y automatización - ChatGPT para Empresas