I modelli di IA più recenti sono multimodali: possono elaborare e generare contenuti in formati diversi dal testo. Questo apre scenari completamente nuovi per il lavoro quotidiano.
Cosa puoi fare con i prompt multimodali
- Analisi di immagini — Carica una foto e chiedi di descriverla, estrarre testo (OCR), identificare elementi
- Generazione di immagini — Descrivi un'immagine e il modello la crea (DALL-E, Midjourney, Gemini)
- Trascrizione audio — Carica una registrazione e ottieni il testo trascritto (Whisper, Gemini)
- Analisi di video — Carica un video e chiedi un riassunto, l'estrazione di momenti chiave, o la trascrizione
- Analisi di documenti scansionati — Carica un PDF scansionato e chiedi di estrarre i dati
[Immagine allegata: foto di un modulo cartaceo compilato a mano] Analizza questo modulo e: 1. Trascrivi tutti i campi compilati in formato tabella 2. Identifica eventuali campi mancanti o illeggibili 3. Segnala se ci sono incongruenze nei dati 4. Suggerisci come digitalizzare questo processo
Prompt per la generazione di immagini
Quando generi immagini con l'IA, la qualità del prompt è ancora più importante. Un buon prompt visivo include: soggetto (cosa), stile (come), composizione (dove), illuminazione (luce), atmosfera (mood).
Disegna un ufficio
Una fotografia professionale di un ufficio pubblico moderno e luminoso, con scrivanie ordinate, piante verdi, luce naturale che entra da ampie finestre, toni caldi di legno chiaro e bianco, stile architettonico contemporaneo italiano, atmosfera accogliente e professionale
Per l'analisi di documenti scansionati, Gemini e Claude sono i più efficaci. Per la generazione di immagini, DALL-E (via ChatGPT) e Midjourney offrono i risultati migliori.