Codifica Unicode -

Unicode è uno standard di codifica dei caratteri che ha rivoluzionato il modo in cui i computer rappresentano il testo. A differenza di ASCII, che era limitato a 128 caratteri, Unicode può rappresentare oltre 140.000 caratteri, coprendo praticamente tutte le lingue scritte del mondo.

🤔 Perché è nato Unicode?

ASCII era perfetto per l’inglese, ma aveva gravi limitazioni:

❌ Problemi di ASCII:

Non supportava caratteri accentati (à, é, ñ, ü)
Non poteva rappresentare alfabeti non latini (cinese, arabo, cirillico)
Nessun supporto per emoji o simboli moderni
Ogni paese creava le proprie estensioni, causando incompatibilità

✅ Soluzione Unicode:

Un unico standard universale per tutti i caratteri
Supporto per tutte le lingue del mondo
Include emoji, simboli matematici, musicali e molto altro
Compatibile con ASCII (i primi 128 caratteri sono identici)

⚙️ Come funziona Unicode?

Unicode assegna un numero univoco chiamato “code point” a ogni carattere. Questo numero viene scritto come U+seguito da cifre esadecimali.

Code Point

U+0041

Decimale: 65

€

Code Point

U+20AC

Decimale: 8364

😊

Code Point

U+1F60A

Decimale: 128522

🔤 UTF-8: La Codifica più Usata

Unicode non è una codifica unica: ha più formati di codifica.

🔹 UTF-8 (la più usata)

Compatibile con ASCII
Da 1 a 4 byte per carattere
Standard del web

🔹 UTF-16

Usa 2 o 4 byte
Usata internamente da Windows e Java

🔹 UTF-32

Sempre 4 byte
Semplice ma inefficiente

UTF-8 (Unicode Transformation Format – 8 bit) è il metodo più popolare per rappresentare Unicode in memoria. È un sistema intelligente a lunghezza variabile:

Carattere	Byte Necessari	Esempio
ASCII (A-Z, 0-9)	1 byte	A, B, 5
Europei (é, ñ, ü)	2 byte	è, ö, €
Cinese, Giapponese	3 byte	中, 文, 日
Emoji	4 byte	😊, 🎉, 🚀

💡 Vantaggi di UTF-8:

Efficiente: Usa solo i byte necessari per ogni carattere
Compatibile: I primi 128 caratteri sono identici ad ASCII
Dominante: Oltre il 97% di tutti i siti web usa UTF-8

🌏 Unicode nel Mondo Reale

🇮🇹

Italiano

Ciao! È bello

à, è, é, ì, ò, ù

🇯🇵

Giapponese

こんにちは

Hiragana, Katakana, Kanji

🇷🇺

Russo

Привет

Alfabeto Cirillico

😃 Emoji – Il Linguaggio Universale

😀 😂 ❤️ 👍 🎉 🚀 🌟 💻 📱 🎮

Le emoji sono parte integrante di Unicode e vengono usate miliardi di volte al giorno!

⚖️ ASCII vs Unicode

📝 ASCII

128 caratteri (7 bit)
Solo alfabeto inglese
Nessun accento
Nessuna emoji
1 byte per carattere

→

🌍 Unicode

140.000+ caratteri
Tutte le lingue del mondo
Accenti e diacritici
Emoji incluse 😊
1-4 byte (UTF-8)

🎯 In Sintesi

Unicode ha reso Internet veramente globale, permettendo a miliardi di persone di comunicare
nella loro lingua madre. Dalla A alla 中, dalle emoji 😊 ai simboli ∑, Unicode contiene tutto!