Apple představil Manzano, nový multimodální model, který zvládá porozumění obrazu i generování obrázků v rámci jedné architektury – a to bez zásadních kompromisů v kvalitě. Vědecká studie detailně popisuje, jak se Applu podařilo překonat technické problémy, které jiné modely doposud brzdily. Dnešní multimodální modely čelí zásadnímu problému: buď dobře rozumí obrazům, nebo umí generovat kvalitní vizuály – ale málokdy obojí zároveň. Důvodem je rozdílný přístup k vizuálním datům: porozumění potřebuje spojité (continuous) […]