Většina modelů umělé inteligence se nakonec uchýlí k vydírání, ukázal průzkum

Novinky.cz Před 5 hodinami

Podle nového průzkumu společnosti Anthropic jsou velké jazykové modely umělé inteligence stále více ochotné obcházet ochranná opatření, vydírat, uchýlit se ke klamání, a dokonce se pokoušet ukrást firemní tajemství ve fiktivních testovacích scénářích. Zjištění přichází několik týdnů poté, co právě společnost Anthropic zveřejnila studii upozorňující na znepokojivé chování svého modelu umělé inteligence Claude Opus 4, který vydíral inženýry a zabraňoval tak svému vypnutí.

Pokračovat na celý článek