Mestieri
Modulo IV · Capitolo 7
Oltre il testo

Prompt multimodali

L'IA non lavora solo con il testo. Può analizzare immagini, generare grafiche, trascrivere audio e persino comprendere video. Benvenuti nell'era multimodale.


I modelli di IA più recenti sono multimodali: possono elaborare e generare contenuti in formati diversi dal testo. Questo apre scenari completamente nuovi per il lavoro quotidiano.

Cosa puoi fare con i prompt multimodali

  • Analisi di immagini — Carica una foto e chiedi di descriverla, estrarre testo (OCR), identificare elementi
  • Generazione di immagini — Descrivi un'immagine e il modello la crea (DALL-E, Midjourney, Gemini)
  • Trascrizione audio — Carica una registrazione e ottieni il testo trascritto (Whisper, Gemini)
  • Analisi di video — Carica un video e chiedi un riassunto, l'estrazione di momenti chiave, o la trascrizione
  • Analisi di documenti scansionati — Carica un PDF scansionato e chiedi di estrarre i dati
prompt
[Immagine allegata: foto di un modulo cartaceo compilato a mano]

Analizza questo modulo e:
1. Trascrivi tutti i campi compilati in formato tabella
2. Identifica eventuali campi mancanti o illeggibili
3. Segnala se ci sono incongruenze nei dati
4. Suggerisci come digitalizzare questo processo

Prompt per la generazione di immagini

Quando generi immagini con l'IA, la qualità del prompt è ancora più importante. Un buon prompt visivo include: soggetto (cosa), stile (come), composizione (dove), illuminazione (luce), atmosfera (mood).

Prima (da migliorare)

Disegna un ufficio

Dopo (migliorato)

Una fotografia professionale di un ufficio pubblico moderno e luminoso, con scrivanie ordinate, piante verdi, luce naturale che entra da ampie finestre, toni caldi di legno chiaro e bianco, stile architettonico contemporaneo italiano, atmosfera accogliente e professionale

Suggerimento

Per l'analisi di documenti scansionati, Gemini e Claude sono i più efficaci. Per la generazione di immagini, DALL-E (via ChatGPT) e Midjourney offrono i risultati migliori.

Verifica di comprensione

Cosa significa che un modello è 'multimodale'?