Errori XML nei feed - Simone Carletti

La presenza di caratteri UTF-8 non validi è l'errore più frequente nella diffusione di feed Atom ed RSS. A diffondere la notizia è il team di Google Reader che ha pubblicato una classifica dei principali errori riscontrati nel tentativo di leggere e mostrare i feed. L'elenco è il risultato di un'analisi dei feed aggiunti nel lettore dagli utenti in un lasso di tempo non specificato.
Seguono a pochi punti di differenza tag annidati non correttamente ed entità utilizzate ma non definite.

A proposito della codifica UTF-8 devo spezzare una lancia a favore degli utenti.
La documentazione esistente in rete sulle varie codifiche è tutt'altro che chiara e semplice e solo i linguaggi di programmazione più avanzati offrono funzioni specifiche per la conversione di caratteri.
Ad esempio, se tentate di lavorare con ASP + UTF-8 preparatevi spiritualmente perché è tutt'altro che una passeggiata soprattutto per gli italiani, assillati da parole piene di accenti e caratteri speciali.
PERL e PHP, fortunatamente, offrono maggiore affidabilità ma attenzione ai settaggi di database e codifiche del webserver.

Un consiglio: se desiderate lavorare con feed ed XML in generale preferite sempre la codifica UTF-8.
Se dovete progettare una piattaforma che farà largo uso di XML e feed considerate l'ipotesi di codificare fin dall'inizio tutti i contenuti in UTF-8 anche se il target di pubblicazione è puramente occidentale.
Vi eviterete numerose grane in futuro.

Simone Carletti 's Blog

Related Posts