¿Qué tipos de modelos de IA soporta Together AI?

Together AI soporta más de 200 modelos generativos de IA, incluyendo modelos de chat, multimodales, de lenguaje, imagen, código y embeddings, con un fuerte enfoque en opciones de código abierto.

¿Qué hardware GPU está disponible en Together AI?

Together AI ofrece GPUs NVIDIA de última generación, incluyendo GB200, B200, H200, H100, A100, L40 y L40S, para cargas de trabajo de inferencia y entrenamiento.

¿Cómo optimiza Together AI el rendimiento y el costo?

Together AI optimiza el rendimiento y el costo mediante kernels optimizados para transformadores personalizados (por ejemplo, kernels de inferencia FP8, FlashAttention-3), cuantización que preserva la calidad (QTIP), decodificación especulativa y modelos de precios competitivos.

¿Puedo ajustar finamente mis propios modelos en Together AI?

Sí, Together AI proporciona capacidades completas de ajuste fino, incluyendo LoRA y ajuste fino completo, permitiendo a los usuarios entrenar y mejorar modelos de alta calidad con propiedad total del modelo y sin dependencia del proveedor.

¿Es Together AI adecuado para uso empresarial?

Sí, Together AI ofrece infraestructura de IA segura y confiable, cumplimiento SOC 2 y HIPAA, endpoints dedicados y servicios expertos de asesoría en IA, siendo adecuado para despliegues a escala empresarial.

Together AI

Name: Together AI
Brand: Together
Price: Varía según modelo y conteo de tokens USD
Availability: InStock

Sin calificación0 Guardado

Nube de aceleración de IA para inferencia rápida, ajuste fino y entrenamiento.

Redes Sociales

twitter linkedin

Sitio webFreemiumDe pagoAPI de IA Herramientas para Desarrolladores de IA Modelos AI Modelos de Lenguaje Grande (LLMs)Modelos AI de Código Abierto

Together AI Introducción

¿Qué es Together AI?

Together AI es una nube de aceleración de IA que proporciona una plataforma integral para el ciclo completo de vida de IA generativa. Ofrece inferencia rápida, ajuste fino y capacidades de entrenamiento para modelos generativos de IA usando APIs fáciles de usar e infraestructura altamente escalable. Los usuarios pueden ejecutar y ajustar modelos de código abierto, entrenar y desplegar modelos a escala en su nube de aceleración de IA y clusters GPU escalables, y optimizar rendimiento y costo. La plataforma soporta más de 200 modelos generativos de IA en diversas modalidades como chat, imágenes, código y más, con APIs compatibles con OpenAI.

Cómo usar Together AI?

Los usuarios pueden interactuar con Together AI mediante APIs fáciles de usar para inferencia sin servidor o desplegar modelos en hardware personalizado vía endpoints dedicados. El ajuste fino está disponible mediante comandos simples o controlando hiperparámetros vía API. Se pueden solicitar clusters GPU para entrenamiento a gran escala. La plataforma también ofrece una interfaz web, API o CLI para iniciar o detener endpoints y gestionar servicios. Hay entornos de ejecución de código para construir y ejecutar tareas de desarrollo de IA.

¿Por qué elegir Together AI?

Elige esto si quieres una plataforma potente y todo en uno para aceleración de IA que maneje todo desde entrenamiento hasta ajuste fino e inferencia con facilidad. Es perfecto para quienes necesitan clusters GPU escalables y soporte para muchos modelos generativos de IA, además tiene APIs compatibles con OpenAI para integración fluida. La inferencia sin servidor y los endpoints dedicados facilitan el despliegue de configuraciones de hardware personalizadas.

Together AI Características

AI API

✓API de inferencia sin servidor para modelos de código abierto
✓Endpoints dedicados para despliegue de hardware personalizado
✓Ajuste fino (LoRA y ajuste fino completo)
✓Aplicación Together Chat para IA de código abierto
✓Code Sandbox para entornos de desarrollo de IA
✓Code Interpreter para ejecutar código generado por LLM
✓Clusters GPU (Instantáneos y Reservados) con GPUs NVIDIA (GB200, B200, H200, H100, A100)
✓Amplia biblioteca de modelos (más de 200 modelos generativos de IA)
✓APIs compatibles con OpenAI
✓Pila de software acelerada (p. ej., FlashAttention-3, kernels CUDA personalizados)
✓Interconexiones de alta velocidad (InfiniBand, NVLink)
✓Herramientas robustas de gestión (Slurm, Kubernetes)

¿Preguntas frecuentes?

Precios

Inferencia sin servidor

Varía según modelo y conteo de tokens

Los precios son por 1 millón de tokens (entrada y salida para Chat, Multimodal, Lenguaje, Código; solo entrada para Embedding; tamaño/pasos de imagen para modelos de Imagen). La inferencia por lotes está disponible con un descuento introductorio del 50%. Los precios específicos de modelos varían de $0.06 a $7.00 por 1M de tokens según tamaño y tipo de modelo.

Endpoints dedicados

Varía según tipo de GPU, por minuto/hora

Despliega modelos en endpoints GPU personalizables con facturación por minuto. Soporta varias GPUs NVIDIA como RTX-6000, L40, A100, H100, H200. Los precios van desde $0.025/minuto ($1.49/hora) para RTX-6000/L40 hasta $0.083/minuto ($4.99/hora) para H200.

Ajuste fino

Por 1M de tokens procesados

Los precios se basan en tamaño de modelo, tamaño del conjunto de datos y número de épocas. Ajuste fino supervisado (LoRA) va de $0.48 a $2.90 por 1M de tokens. Ajuste fino completo va de $0.54 a $3.20 por 1M de tokens. DPO (LoRA) va de $1.20 a $7.25 por 1M de tokens. DPO (Ajuste fino completo) va de $1.35 a $8.00 por 1M de tokens.

Clusters GPU Together

Desde $1.30/hora

Clusters de última generación con GPUs NVIDIA Blackwell y Hopper (H200, H100, A100) para entrenamiento e inferencia óptimos. H200 desde $2.09/hora, H100 desde $1.75/hora, A100 desde $1.30/hora. Precios de GB200 y B200 requieren contacto.

Ejecución de código

Por hora o por sesión

Together Code Sandbox se cobra por vCPU ($0.0446/hora) y por GiB RAM ($0.0149/hora). Together Code Interpreter se cobra por sesión ($0.03 por 60 minutos).

Together AI Etiquetas