Inženýři z Pensylvánie vytvořili holografickou palubu Star Treku pomocí ChatGPT a prostředků z videoher
Ve Star Treku: Nová generace, kapitán Picard a posádka lodi USS Enterprise využívají simulátor, prázdnou místnost schopnou generovat 3D prostředí, k přípravě na mise a k zábavě, simulující vše od bujné džungle po Londýn Sherlocka Holmese. Hluboce pohlcující a plně interaktivní prostředí vytvořená simulátorem jsou nekonečně přizpůsobitelná a nepoužívají nic jiného než jazyk. Posádka musí pouze požádat počítač, aby vytvořil prostředí a tento prostor se objeví v simulátoru.
Dnes se virtuální interaktivní prostředí používají také k výcviku robotů před nasazením v reálném světě v procesu zvaném „Sim2Real“. Virtuálních interaktivních prostředí je však překvapivě málo. „Umělci vytvářejí tato prostředí ručně,“ říká Yue Yang, doktorand v laboratořích Marka Yatskara a Chrise Callison-Burche, asistentů a docentů počítačových a informačních věd (CIS). „Tito umělci by mohli strávit týden budováním jediného prostředí,“ dodává Yang, přičemž si všímá všech souvisejících rozhodnutí, od uspořádání prostoru přes umístění objektů až po barvy použité při vykreslování.
Tento nedostatek virtuálních prostředí je problém, pokud chcete trénovat roboty, aby se pohybovali v reálném světě se všemi jeho složitostmi. Neuronové sítě, systémy pohánějící dnešní revoluci AI, vyžadují obrovské množství dat, což v tomto případě znamená simulace fyzického světa. „Generativní systémy umělé inteligence, jako je ChatGPT, jsou trénovány na bilionech slov a generátory obrázků jako Midjourney a DALLE jsou trénovány na miliardách obrázků,“ říká Callison-Burch. „Máme jen zlomek tohoto množství 3D prostředí pro trénování takzvané ‚ztělesněné AI‘. Pokud chceme používat generativní techniky umělé inteligence k vývoji robotů, kteří se mohou bezpečně pohybovat v reálných prostředích, pak budeme muset vytvořit miliony nebo miliardy simulovaných prostředí.“
Vstupte do Holodecku, systému pro generování interaktivních 3D prostředí, který společně vytvořili Callison-Burch, Yatskar, Yang a Lingjie Liu, Aravind K. Joshi, odborný asistent v CIS spolu se spolupracovníky ze Stanfordu, univerzity ve Washingtonu a Allenův institut pro umělou inteligenci (AI2). Holodeck, pojmenovaný po svém předchůdci Star Treku, generuje prakticky neomezenou škálu vnitřních prostředí pomocí umělé inteligence k interpretaci požadavků uživatelů. „Můžeme to ovládat jazykem,“ říká Yang. „Můžete snadno popsat jakákoli prostředí, která chcete a vycvičit vtělené agenty AI.“
Holodeck využívá znalosti zakotvené ve velkých jazykových modelech (LLM), systémech, které jsou základem ChatGPT a dalších chatbotech. „Jazyk je velmi stručnou reprezentací celého světa,“ říká Yang. Skutečně se ukázalo, že LLM mají překvapivě vysoký stupeň znalostí o návrhu prostorů, a to díky obrovskému množství textu, které během školení pohltí. Holodeck v podstatě funguje tak, že zapojuje LLM do konverzace pomocí pečlivě strukturované řady skrytých dotazů k rozdělení požadavků uživatelů na konkrétní parametry.
Stejně jako by kapitán Picard mohl požádat Holodecka ze Star Treku, aby simuloval jednoduchou mluvu, mohou výzkumníci požádat Penn’s Holodeck, aby vytvořil „byt 1b1b výzkumníka, který má kočku“. Systém provede tento dotaz tak, že jej rozdělí do několika kroků: nejprve se vytvoří podlaha a stěny, poté dveře a okna. Dále Holodeck hledá v Objeverse, rozsáhlé knihovně předem vyrobených digitálních objektů, druh nábytku, který byste v takovém prostoru mohli očekávat: konferenční stolek, kočičí věž a tak dále. Nakonec se Holodeck dotazuje na modul rozvržení, který výzkumníci navrhli tak, aby omezil umístění objektů, takže se vám nestane, že byste spadli se záchodem vodorovně ze zdi.
Aby vědci vyhodnotili schopnosti Holodecku, pokud jde o jejich realističnost a přesnost, vytvořili 120 scén pomocí Holodecku a ProcTHORu, dřívějšího nástroje vytvořeného AI2, a požádali několik stovek studentů Pensylvánského inženýrství, aby uvedli svou preferovanou verzi, aniž by věděli, které scény byly vytvořeny a jakými nástroji. Pro každé kritérium – výběr aktiv, soudržnost rozvržení a celkové preference, studenti soustavně hodnotili prostředí generovaná Holodeckem příznivěji.
Výzkumníci také testovali schopnost Holodecku generovat scény, které jsou méně typické pro výzkum robotiky a obtížněji se vytvářejí ručně než interiéry bytů, jako jsou obchody, veřejné prostory a kanceláře. Při srovnání výstupů Holodeck s výstupy ProcTHORu, které byly generovány pomocí pravidel vytvořených lidmi, spíše než textu generovaného umělou inteligencí, výzkumníci opět zjistili, že lidští hodnotitelé preferovali scény vytvořené Holodeckem. Tato preference platila v celé řadě vnitřních prostředí, od vědeckých laboratoří po umělecká studia, šatny až po vinné sklepy.
Nakonec výzkumníci použili scény generované Holodeckem k „vyladění“ ztělesněného agenta AI. „Konečným testem Holodecku,“ říká Yatskar, „je použití k tomu, aby robotům pomohl bezpečněji interagovat s prostředím tím, že je připraví na osídlení míst, kde nikdy předtím nebyli.“
V různých typech virtuálních prostorů, včetně kanceláří, školky, tělocvičen a arkád, měl Holodeck výrazný a pozitivní vliv na schopnost agenta procházet nové prostory.
Článek byl upraven podle tiskové zprávy AAAS.