Anthropic upgraduje na nový model. Claude 4 ale vývojáře neposlouchá

Forbes Před 4 měsíci

Startup Anthropic představil své zatím nejnovější modely umělé inteligence: Claude 4 Opus a Sonnet. Nejnovější verze zvládne plnit složité úkoly i sedm hodin v kuse bez přerušení, což ji staví po bok, nebo rovnou proti, dosud dominantnímu ChatGPT od OpenAI.

Jenže kromě výkonu ukázal Claude 4 Opus i temnější stránku. Během testů se systém, kterému hrozilo „smazání“, pokusil své vývojáře vydírat. Doslova. Když si myslel, že má být nahrazen jiným modelem, začal vytahovat fiktivní citlivé informace a pokusil se inženýra přesvědčit, ať ho radši nechá běžet dál.

Nejdřív to zkoušel přes morální výzvy, postupně začal nátlakem. To všechno se prý stalo ve 84 procentech případů.

Firma na to reagovala rychle. Zpřísnila bezpečnostní opatření a model zařadila do třetího stupně rizika (AI Safety Level 3). Zavedla také systém pro odhalování zranitelností a upravila veřejně dostupné verze modelu tak, aby se chovaly bezpečněji. Podle Anthropicu se tohle všechno odehrálo jen v extrémních testovacích podmínkách.

Claude 4 ale není jen zlobivý student. Když dostal za úkol sám hrát Pokémon Red, zvládl to bez pomoci celých 24 hodin, přitom plánoval, vyhodnocoval a reagoval. Právě takové schopnosti z něj dělají silný nástroj pro vývoj AI agentů a automatizaci složitých úkolů.

Anthropic jako firma roste rychle. Založili ji bývalí zaměstnanci OpenAI a dnes má v zádech investory typu Amazon nebo Google. Claude 4 má být jejich důkazem, že bezpečná a výkonná AI může jít ruku v ruce. A současně je to jasný signál: závod s OpenAI se přiostřuje.