Agar benar-benar berguna dalam loop kontrol robotika, model dunia harus bekerja pada berbagai skala waktu dan memenuhi berbagai fungsi. NVIDIA merancang Cosmos sebagai keluarga model yang mencakup kebutuhan ini melalui beberapa komponen yang saling melengkapi . Dalam loop kontrol robot tradisional, estimasi state biasanya bergantung pada algoritma seperti filter Kalman yang menggunakan data observasi input-output sistem untuk memperkirakan state secara optimal. Namun, algoritma semacam ini tidak berdaya menghadapi skenario non-linear dengan kontak kompleks, seperti saat memanipulasi objek fleksibel. Cosmos Predict 2.5 dan Cosmos Transfer 2.5, dua model sumber terbuka yang dirilis NVIDIA, dirancang untuk menangani apa yang disebut sebagai fast thinking, yaitu respons cepat yang harus terjadi dalam hitungan milidetik .
Cosmos Predict 2.5 menggabungkan kemampuan generasi Text2World, Image2World, dan Video2World dalam arsitektur terpadu untuk menghasilkan output simulasi dunia video yang koheren dan dapat dikontrol. Alih-alih melakukan ekstrapolasi piksel demi piksel dari frame saat ini, model ini meramalkan evolusi lintasan state fisik. Ambil contoh tugas menuangkan air dengan lengan robot. Metode tradisional harus memecahkan persamaan dinamika fluida secara eksplisit, yang kompleksitas komputasinya sangat tinggi dan sulit memenuhi persyaratan real-time. Pendekatan Cosmos Predict 2.5, dengan mempelajari data video fisik dalam jumlah masif, dapat memprediksi distribusi fluida dan ketidakpastian pada saat berikutnya berdasarkan observasi saat ini dan gangguan aksi yang diberikan . Ini memberi controller dasar untuk menilai apakah akan terjadi ketidakstabilan atau tumpahan dengan cepat. Kemampuan ini memberi robot semacam intuisi fisik yang mendekati manusia, memungkinkannya melakukan penyesuaian kontinu berdasarkan umpan balik fisik langsung saat aksi berlangsung, tanpa harus kembali ke perencana tingkat tinggi untuk menghitung ulang seluruh lintasan gerakan.
Sementara itu, Cosmos Transfer 2.5 berfungsi sebagai jembatan untuk menjembatani kesenjangan antara simulasi dan realitas, yang dikenal sebagai Sim-to-Real Gap, yang selama ini disebut sebagai jurang pemisah utama dalam adopsi robot humanoid . Kesenjangan ini terutama disebabkan oleh perbedaan domain antara gambar yang dirender dan gambar nyata, serta penyimpangan parameter antara mesin fisika simulasi dan dunia fisik nyata. Cosmos Transfer 2.5 menyediakan skema adaptasi domain berbasis AI generatif. Ia dapat mengubah data sintetis sempurna yang dihasilkan di NVIDIA Isaac Sim menjadi data yang mengandung noise dunia nyata, gangguan pencahayaan, bahkan distorsi lensa, sambil mempertahankan parameter fisik tetap utuh . Sebaliknya, ia juga dapat memperkuat data dunia nyata yang jarang menjadi skenario beragam di lingkungan simulasi. Ini berarti tingkat keberhasilan zero-shot ketika strategi jaringan yang dilatih dalam simulasi di-deploy ke robot nyata akan meningkat secara kualitatif.
LEM Surgical, perusahaan yang mengembangkan sistem bedah robotik Dynamis, adalah salah satu pengadopsi awal teknologi ini. Sistem mereka yang telah mendapatkan izin FDA dan digunakan secara rutin untuk prosedur tulang belakang menggunakan NVIDIA Cosmos Transfer untuk menghasilkan data pelatihan sintetis dan NVIDIA Isaac Sim untuk simulasi digital twin . Dirancang sebagai robot bedah humanoid dua lengan untuk bedah jaringan keras, sistem Dynamis meniru ketangkasan ahli bedah manusia dan memungkinkan prosedur tulang belakang yang kompleks dengan presisi yang ditingkatkan, sekaligus mengurangi tuntutan fisik yang berat pada ahli bedah dan asisten bedah. Ini adalah contoh sempurna bagaimana Cosmos Transfer menjembatani kesenjangan antara simulasi dan realitas, memungkinkan pengembangan sistem robotik yang aman dan andal untuk aplikasi kritis seperti bedah.