Codifica Unicode

Unicode è uno standard di codifica dei caratteri che ha rivoluzionato il modo in cui i computer rappresentano il testo. A differenza di ASCII, che era limitato a 128 caratteri, Unicode può rappresentare oltre 140.000 caratteri, coprendo praticamente tutte le lingue scritte del mondo.

🤔 Perché è nato Unicode?

ASCII era perfetto per l’inglese, ma aveva gravi limitazioni:

❌ Problemi di ASCII:

  • Non supportava caratteri accentati (à, é, ñ, ü)
  • Non poteva rappresentare alfabeti non latini (cinese, arabo, cirillico)
  • Nessun supporto per emoji o simboli moderni
  • Ogni paese creava le proprie estensioni, causando incompatibilità

✅ Soluzione Unicode:

  • Un unico standard universale per tutti i caratteri
  • Supporto per tutte le lingue del mondo
  • Include emoji, simboli matematici, musicali e molto altro
  • Compatibile con ASCII (i primi 128 caratteri sono identici)

⚙️ Come funziona Unicode?

Unicode assegna un numero univoco chiamato “code point” a ogni carattere. Questo numero viene scritto come U+seguito da cifre esadecimali.

A

Code Point

U+0041

Decimale: 65

Code Point

U+20AC

Decimale: 8364

😊

Code Point

U+1F60A

Decimale: 128522

🔤 UTF-8: La Codifica più Usata

Unicode non è una codifica unica: ha più formati di codifica.

🔹 UTF-8 (la più usata)

  • Compatibile con ASCII
  • Da 1 a 4 byte per carattere
  • Standard del web

🔹 UTF-16

  • Usa 2 o 4 byte
  • Usata internamente da Windows e Java

🔹 UTF-32

  • Sempre 4 byte
  • Semplice ma inefficiente

UTF-8 (Unicode Transformation Format – 8 bit) è il metodo più popolare per rappresentare Unicode in memoria. È un sistema intelligente a lunghezza variabile:

CarattereByte NecessariEsempio
ASCII (A-Z, 0-9)1 byteA, B, 5
Europei (é, ñ, ü)2 byteè, ö, €
Cinese, Giapponese3 byte中, 文, 日
Emoji4 byte😊, 🎉, 🚀

💡 Vantaggi di UTF-8:

  • Efficiente: Usa solo i byte necessari per ogni carattere
  • Compatibile: I primi 128 caratteri sono identici ad ASCII
  • Dominante: Oltre il 97% di tutti i siti web usa UTF-8

🌏 Unicode nel Mondo Reale

🇮🇹

Italiano

Ciao! È bello

à, è, é, ì, ò, ù

🇯🇵

Giapponese

こんにちは

Hiragana, Katakana, Kanji

🇷🇺

Russo

Привет

Alfabeto Cirillico

😃 Emoji – Il Linguaggio Universale

😀 😂 ❤️ 👍 🎉 🚀 🌟 💻 📱 🎮

Le emoji sono parte integrante di Unicode e vengono usate miliardi di volte al giorno!

⚖️ ASCII vs Unicode

📝 ASCII

  • 128 caratteri (7 bit)
  • Solo alfabeto inglese
  • Nessun accento
  • Nessuna emoji
  • 1 byte per carattere

🌍 Unicode

  • 140.000+ caratteri
  • Tutte le lingue del mondo
  • Accenti e diacritici
  • Emoji incluse 😊
  • 1-4 byte (UTF-8)

🎯 In Sintesi

Unicode ha reso Internet veramente globale, permettendo a miliardi di persone di comunicare
nella loro lingua madre. Dalla A alla 中, dalle emoji 😊 ai simboli ∑, Unicode contiene tutto!