Unicode è uno standard di codifica dei caratteri che ha rivoluzionato il modo in cui i computer rappresentano il testo. A differenza di ASCII, che era limitato a 128 caratteri, Unicode può rappresentare oltre 140.000 caratteri, coprendo praticamente tutte le lingue scritte del mondo.
🤔 Perché è nato Unicode?
ASCII era perfetto per l’inglese, ma aveva gravi limitazioni:
❌ Problemi di ASCII:
- Non supportava caratteri accentati (à, é, ñ, ü)
- Non poteva rappresentare alfabeti non latini (cinese, arabo, cirillico)
- Nessun supporto per emoji o simboli moderni
- Ogni paese creava le proprie estensioni, causando incompatibilità
✅ Soluzione Unicode:
- Un unico standard universale per tutti i caratteri
- Supporto per tutte le lingue del mondo
- Include emoji, simboli matematici, musicali e molto altro
- Compatibile con ASCII (i primi 128 caratteri sono identici)
⚙️ Come funziona Unicode?
Unicode assegna un numero univoco chiamato “code point” a ogni carattere. Questo numero viene scritto come U+seguito da cifre esadecimali.
Code Point
U+0041
Decimale: 65
Code Point
U+20AC
Decimale: 8364
Code Point
U+1F60A
Decimale: 128522
🔤 UTF-8: La Codifica più Usata
Unicode non è una codifica unica: ha più formati di codifica.
🔹 UTF-8 (la più usata)
- Compatibile con ASCII
- Da 1 a 4 byte per carattere
- Standard del web
🔹 UTF-16
- Usa 2 o 4 byte
- Usata internamente da Windows e Java
🔹 UTF-32
- Sempre 4 byte
- Semplice ma inefficiente
UTF-8 (Unicode Transformation Format – 8 bit) è il metodo più popolare per rappresentare Unicode in memoria. È un sistema intelligente a lunghezza variabile:
| Carattere | Byte Necessari | Esempio |
|---|---|---|
| ASCII (A-Z, 0-9) | 1 byte | A, B, 5 |
| Europei (é, ñ, ü) | 2 byte | è, ö, € |
| Cinese, Giapponese | 3 byte | 中, 文, 日 |
| Emoji | 4 byte | 😊, 🎉, 🚀 |
💡 Vantaggi di UTF-8:
- Efficiente: Usa solo i byte necessari per ogni carattere
- Compatibile: I primi 128 caratteri sono identici ad ASCII
- Dominante: Oltre il 97% di tutti i siti web usa UTF-8
🌏 Unicode nel Mondo Reale
🇮🇹
Italiano
Ciao! È bello
à, è, é, ì, ò, ù
🇯🇵
Giapponese
こんにちは
Hiragana, Katakana, Kanji
🇷🇺
Russo
Привет
Alfabeto Cirillico
😃 Emoji – Il Linguaggio Universale
😀 😂 ❤️ 👍 🎉 🚀 🌟 💻 📱 🎮
Le emoji sono parte integrante di Unicode e vengono usate miliardi di volte al giorno!
⚖️ ASCII vs Unicode
📝 ASCII
- 128 caratteri (7 bit)
- Solo alfabeto inglese
- Nessun accento
- Nessuna emoji
- 1 byte per carattere
🌍 Unicode
- 140.000+ caratteri
- Tutte le lingue del mondo
- Accenti e diacritici
- Emoji incluse 😊
- 1-4 byte (UTF-8)
🎯 In Sintesi
Unicode ha reso Internet veramente globale, permettendo a miliardi di persone di comunicare
nella loro lingua madre. Dalla A alla 中, dalle emoji 😊 ai simboli ∑, Unicode contiene tutto!