Google non ha il miglior track record quando si tratta di intelligenza artificiale che genera immagini.
A febbraio, il generatore di immagini integrato in Gemini, il chatbot basato su intelligenza artificiale di Google, è stato trovato casualmente ad inserire diversità di genere e razziale nelle indicazioni sulle persone, risultando in immagini di nazisti di diversità razziale, tra altre inesattezze offensiva.
Google ha ritirato il generatore, promettendo di migliorarlo e alla fine di rilanciarlo. Mentre aspettiamo il suo ritorno, l'azienda sta lanciando un migliorato strumento di generazione di immagini, Imagen 2, all'interno della piattaforma per sviluppatori Vertex AI, sebbene uno strumento con un taglio decisamente più orientato all'azienda.
Imagen 2 - che è effettivamente una famiglia di modelli, lanciata a dicembre dopo essere stata presentata in anteprima alla conferenza I/O di Google a maggio 2023 - può creare e modificare immagini dati un'indicazione testuale, come DALL-E e Midjourney di OpenAI. Di interesse per i tipi aziendali, Imagen 2 può renderizzare testi, emblemi e loghi in diverse lingue, sovrapponendo eventualmente quegli elementi in immagini esistenti, ad esempio su biglietti da visita, capi di abbigliamento e prodotti.
Dopo il lancio in anteprima, l'editing di immagini con Imagen 2 è ora disponibile in Vertex AI insieme a due nuove funzionalità: inpainting e outpainting. Inpainting e outpainting, funzionalità offerte da altri popolari generatori di immagini come DALL-E da tempo, possono essere utilizzate per rimuovere parti indesiderate di un'immagine, aggiungere nuovi componenti ed espandere i bordi di un'immagine per creare un campo visivo più ampio.
Ma il vero cuore dell'aggiornamento Imagen 2 è ciò che Google chiama 'immagini live da testo'.
Imagen 2 può ora creare brevi video di quattro secondi da indicazioni testuali, sulla falsariga di strumenti di generazione di clip alimentati da intelligenza artificiale come Runway, Pika e Irreverent Labs. Fedele al focus aziendale di Imagen 2, Google presenta le immagini live come strumento per marketer e creativi, ad esempio un generatore di GIF per annunci che mostrano natura, cibo e animali, argomenti su cui Imagen 2 è stato rifinito.
Google afferma che le immagini live possono catturare 'una gamma di angoli di camera e movimenti' mentre 'supportano la coerenza su tutto il frame'. Ma per ora sono a bassa risoluzione: 360 pixel per 640 pixel. Google si impegna a migliorare questo in futuro.