Новата верзија носи подобра прецизност, поддршка за повеќе јазици, повисока резолуција и можности за расудување, овозможувајќи поконзистентни и поквалитетни визуелни резултати
Нешто повеќе од една година откако OpenAI им овозможи на корисниците на ChatGPT да креираат слики и дизајни директно преку популарниот четбот, сега го објави ChatGPT Images 2.0. OpenAI го опишува новиот систем како „квантен скок“ за моделите за генерирање слики, особено кога станува збор за способноста на алатката детално да следи инструкции, да прикажува густ текст и да поставува и поврзува објекти во сцена. За прв пат, OpenAI има изградено и модел за слики со способности за расудување, што му дава на системот можност да прави работи како пребарување на интернет и проверка на сопствените резултати. Според компанијата, овие способности треба да резултираат со понадежна алатка кога точноста, конзистентноста и визуелната кохезија се од суштинско значење.

OpenAI исто така наведува дека вложила многу работа за да го направи Images 2.0 подобар во разбирањето и прикажувањето на нелатиничен текст, со „значителни подобрувања“ во способноста на моделот да се справува со јапонски, корејски, кинески, хинди и бенгалски јазик. Истовремено, компанијата тврди дека новиот модел е подобар во верно пресоздавање на специфичните карактеристики на различни визуелни јазици. Во овој контекст, OpenAI вели дека Images 2.0 е покорисен за задачи како прототипирање игри и сториборд (раскажување преку сцени). Покрај овие функции, новиот модел е пофлексибилен во однос на односите на страните (aspect ratio), овозможувајќи генерирање слики широки до 3:1 и високи до 1:3. Исто така може да произведува дизајни со резолуција до 2K, па дури и до осум излези одеднаш.

Добив можност да го тестирам Images 2.0 пред неговото јавно објавување. За првиот промпт побарав од ChatGPT да генерира слика на мачка со желкасто крзно во пиксел-арт стилот на третата генерација на Pokémon. Ова го сметав за добар тест бидејќи моделите со вештачка интелигенција обично имаат потешкотии со пиксел-арт, а Pokémon игрите за Game Boy Advance се препознатливи по својот стил, па обична приближна верзија не би била доволна. Резултатот е сликата што ја гледате погоре, и сметам дека ChatGPT заврши одлична работа. Потоа го замолив моделот да ја претвори сликата во PNG со транспарентна позадина. За последен тест, побарав да создаде четири-странична манга за мојата мачка која ужива во сончев ден покрај идиличен градски поток.

Од овие три теста, ChatGPT најмногу време потроши на вториот, а резултатот таму малку се разликуваше од првата слика што ја генерираше, што според мене се оддалечи од мојот промпт. Сепак, успеа да генерира соодветна слика со транспарентна позадина, што е нешто со кое други модели за слики често имаат проблем. Откако повеќе луѓе ќе го тестираат моделот, ќе имаме подобра слика за тоа како се споредува со Google Nano Banana 2 и каде OpenAI може дополнително да го подобри.
Images 2.0 е достапен од денес за сите корисници на ChatGPT, вклучувајќи ги и оние на бесплатните и Go пакетите. Plus и Pro претплатниците добиваат пристап до понапредни резултати. OpenAI исто така го прави моделот достапен преку својот API сервис и Codex апликацијата за програмирање, која минатата недела беше ажурирана со вградена генерација на слики. Забележливо е дека Images 2.0 доаѓа само неколку дена по влегувањето на Anthropic во полето на визуелен дизајн со својот асистент за дизајн.
Konekt.mk








