Může umělé inteligenci „dojít řeč“?

11. 7. 2023 Markéta Beňovská, Mgr. 2 min read 493 Zobrazení budoucnost, internet, technologie, umělá inteligence

Podle Stuarta Russella, profesora informatiky na Kalifornské univerzitě v Berkeley, je ChatGPT společnosti OpenAI jedním z mnoha chatbotů vycvičených na rozsáhlých jazykových modelech, kterým možná „dochází text“, na němž se mohou trénovat, píše Business Insider.

Odborník na umělou inteligenci a profesor Kalifornské univerzity v Berkeley tvrdí, že ChatGPT a dalším programům s umělou inteligencí možná brzy „dojde text ve vesmíru“, který je naučí, co mají říkat.

Stuart Russell uvedl, že technologie, která shromažďuje hory textů pro trénování umělé inteligence, jako je ChatGPT, „začíná narážet na zeď“. Jinými slovy, digitálního textu, který mohou tito roboti pojmout, je jen omezené množství, řekl minulý týden v rozhovoru s pracovníkem Mezinárodní telekomunikační unie, agentury OSN pro komunikaci.

Praktiky sběru dat, které jsou nedílnou součástí ChatGPT a dalších chatbotů, čelí zvýšené kontrole, a to i ze strany tvůrců, kteří se obávají, že jejich práce bude replikována bez jejich souhlasu, a ze strany vedoucích pracovníků sociálních médií, kteří jsou nespokojeni s tím, že data jejich platforem jsou volně využívána. Russellovy postřehy však poukazují na další potenciální zranitelnost: nedostatek textů k trénování těchto datových souborů.

Studie, kterou loni v listopadu provedla skupina výzkumníků v oblasti umělé inteligence Epoch, odhaduje, že datové sady pro strojové učení pravděpodobně vyčerpají všechna „vysoce kvalitní jazyková data“ do roku 2026. Jazyková data ve „vysoce kvalitních“ sadách pocházejí podle studie ze zdrojů, jako jsou „knihy, zpravodajské články, vědecké práce, Wikipedie a filtrovaný webový obsah“.

Velké jazykové modely zvané LLM pohánějící dnes nejpopulárnější generativní nástroje AI byly vyškoleny na obrovském množství publikovaných textů vybraných z veřejných online zdrojů, včetně digitálních zpravodajských zdrojů a stránek sociálních médií. Právě „škrábání dat“ z posledně jmenovaných vedlo Elona Muska k tomu, že omezil počet tweetů, které si uživatelé mohou denně zobrazit, jak uvedl.

Russell uvedl, že mnoho zpráv, i když nepotvrzených, podrobně popisuje, že společnost OpenAI, která stojí za ChatGPT, nakupovala soubory textových dat ze soukromých zdrojů. Russell dodal, že ačkoli pro takový nákup existují možná vysvětlení, „přirozený závěr je, že nezbývá dostatek vysoce kvalitních veřejných dat“.

Russell v rozhovoru uvedl, že společnost OpenAI musela zejména „doplnit“ svá veřejná jazyková data o „soukromé archivní zdroje“, aby mohla vytvořit GPT-4, dosud nejsilnější a nejpokročilejší model umělé inteligence společnosti.

Několik žalob podaných proti společnosti OpenAI v posledních několika týdnech tvrdí, že společnost použila k tréninku ChatGPT datové sady obsahující osobní údaje a materiály chráněné autorskými právy. Mezi největší patří 157stránková žaloba podaná 16 nejmenovanými žalobci, kteří tvrdí, že společnost OpenAI použila citlivé údaje, jako jsou soukromé rozhovory a lékařské záznamy.

Naráží tedy vývoj AI na své limity? To ukáže možná už blízká budoucnost.