IA física
Desarrolle modelos fundacionales mundiales para avanzar en la IA física.
Descripción
NVIDIA Cosmos™ es una plataforma de modelos básicos de mundo (WFM) generativos de vanguardia, tokenizadores avanzados, barreras de protección y un canal de selección y procesamiento de datos acelerados. Está diseñada para potenciar el entrenamiento de modelos mundiales y acelerar el desarrollo de la IA física para vehículos autónomos (VA) y robots.
Modelos abiertos
Modelos generativos multimodales previamente entrenados que los desarrolladores pueden utilizar de forma inmediata para la generación de mundos o el razonamiento o que pueden entrenar posteriormente para desarrollar modelos de IA física especializados.
Un modelo de predicción del estado del mundo de última generación que puede generar hasta 30 segundos de vídeo continuo a partir de entradas multimodales con una velocidad, fidelidad y adherencia superiores.
Modelo multicontrol para escalar una sola simulación o vídeo espacial rápidamente en varios entornos y condiciones de iluminación.
Acelere las entradas 3D de marcos de simulación de IA física, como CARLA o NVIDIA Isaac Sim™, para permitir un aumento de los datos y las canalizaciones de generación de datos sintéticos totalmente controlables.
Modelo de lenguaje de visión (VLM) totalmente personalizable que destaca por su capacidad para comprender el mundo físico como las personas mediante el razonamiento estructurado en vídeos e imágenes.
Se ha diseñado para impulsar agentes de IA de análisis de vídeo en tiempo de ejecución con una comprensión espaciotemporal de las operaciones urbanas e industriales, organizar datos de entrenamiento para robótica y vehículos autónomos (AV), y tomar decisiones relacionadas con robots.
NVIDIA Cosmos Curator es un marco que permite a los desarrolladores filtrar, anotar y deduplicar rápidamente grandes cantidades de datos de sensores necesarios para el desarrollo de IA física, ya que crea conjuntos de datos personalizados para satisfacer las necesidades de los modelos.
Acelere el procesamiento y la generación de conjuntos de datos de forma eficiente.
Casos de uso
Utilice los modelos básicos de mundo de Cosmos para simular, razonar y generar datos para canalizaciones descendientes en robótica, vehículos autónomos y sistemas de visión industrial.
Los robots necesitan datos de entrenamiento amplios y diversos para percibir sus entornos e interactuar con ellos. Con los WFM de Cosmos, los desarrolladores pueden generar datos sintéticos controlables y de alta fidelidad para entrenar modelos de percepción y políticas de robots.
Los datos de sensores diversos y de alta fidelidad son fundamentales para entrenar, probar y validar vehículos autónomos de forma segura. Con los WFM de Cosmos entrenados posteriormente con los datos de vehículos, los desarrolladores pueden amplificar la diversidad de datos existentes con nuevas condiciones meteorológicas, niveles de iluminación y geolocalizaciones, o bien expandirse a vistas multisensor, lo que ahorra tiempo y costes significativos.
Estos agentes de IA pueden analizar, resumir e interactuar con flujos de vídeo en tiempo real o grabados para mejorar la automatización, la seguridad y la eficiencia operativa en entornos industriales y urbanos.
Cosmos Reason es un modelo de lenguaje de visión (VLM) personalizable que potencia los agentes de IA de análisis de vídeo con una comprensión visual avanzada y un razonamiento espaciotemporal del mundo físico. Estos agentes de IA ofrecen respuestas a preguntas en tiempo real, alertas rápidas e información contextual enriquecida, lo que potencia sistemas más inteligentes y receptivos en implementaciones perimetrales y en la nube.
IA fiable
Los modelos, límites y tokenizadores de Cosmos están disponibles en Hugging Face y GitHub, con recursos para abordar la escasez de datos en el entrenamiento de modelos de IA físicos.
Infraestructura de IA
Los servidores NVIDIA RTX PRO 6000 de la serie Blackwell aceleran el desarrollo de IA física para robots, vehículos autónomos y agentes de IA en el entrenamiento, la generación de datos sintéticos, la simulación y la inferencia.
Acceda al máximo rendimiento de los modelos básicos de mundo de Cosmos en NVIDIA Blackwell GB200 para cargas de trabajo industriales de inferencia y posteriores al entrenamiento.
Ecosistema
Los desarrolladores de modelos de los sectores de la robótica, los vehículos autónomos y la visión artificial utilizan Cosmos para acelerar el desarrollo de la IA física.
Recursos
Empiece con la documentación. Los modelos fundamentales mundiales de Cosmos están disponibles de forma abierta en Hugging Face con scripts de inferencia y entrenamiento posterior en GitHub. Los desarrolladores también pueden utilizar el tokenizador de Cosmos de /NVIDIA/cosmos-tokenizer en GitHub y Hugging Face.
Los modelos básicos de mundo de Cosmos están disponibles con licencia de modelo abierto de NVIDIA para todos.
Los scripts de PyTorch están disponibles de forma abierta para todos los modelos de Cosmos para el entrenamiento posterior. Lea la documentación para obtener una guía paso a paso sobre el entrenamiento posterior.
Sí, puede aprovechar Cosmos para crear desde cero con su modelo o arquitectura de modelos preferidos. Puede empezar utilizando NeMo Curator para el preprocesamiento de datos de vídeo. Luego comprima y descodifique sus datos con el tokenizador Cosmos. Una vez que haya procesado los datos, puede entrenar o ajustar su modelo utilizando NVIDIA NeMo.
Utilizando los microservicios NVIDIA NIM™, puede integrar fácilmente sus modelos de IA física en sus aplicaciones en la nube, los centros de datos y las estaciones de trabajo.
También puede utilizar NVIDIA DGX Cloud para entrenar modelos de IA e implementarlos en cualquier lugar a escala.
Los tres son WFM con roles distintos:
Cosmos Reason puede generar nuevos y diversos mensajes de texto a partir de un solo vídeo de inicio para Cosmos Predict, o analizar y anotar datos sintéticos de Predict y Transfer.
Omniverse crea simulaciones 3D realistas de tareas del mundo real utilizando diferentes API generativas, SDK y la tecnología de renderizado NVIDIA RTX.
Los desarrolladores pueden introducir simulaciones de Omniverse como vídeos instructivos en modelos de Cosmos Transfer para generar datos sintéticos fotorrealistas controlables.
Juntos, Omniverse proporciona el entorno de simulación antes y después del entrenamiento, mientras que Cosmos proporciona los modelos fundacionales para generar datos de vídeo y entrenar modelos de IA física.
Más información sobre NVIDIA Omniverse.