La presenza di caratteri UTF-8 non validi è l’errore più frequente nella diffusione di feed Atom ed RSS. A diffondere la notizia è il team di Google Reader che ha pubblicato una classifica dei principali errori riscontrati nel tentativo di leggere e mostrare i feed. L’elenco è il risultato di un’analisi dei feed aggiunti nel lettore dagli utenti in un lasso di tempo non specificato.
Seguono a pochi punti di differenza tag annidati non correttamente ed entità utilizzate ma non definite.
A proposito della codifica UTF-8 devo spezzare una lancia a favore degli utenti.
La documentazione esistente in rete sulle varie codifiche è tutt’altro che chiara e semplice e solo i linguaggi di programmazione più avanzati offrono funzioni specifiche per la conversione di caratteri.
Ad esempio, se tentate di lavorare con ASP + UTF-8 preparatevi spiritualmente perché è tutt’altro che una passeggiata soprattutto per gli italiani, assillati da parole piene di accenti e caratteri speciali.
PERL e PHP, fortunatamente, offrono maggiore affidabilità ma attenzione ai settaggi di database e codifiche del webserver.
Un consiglio: se desiderate lavorare con feed ed XML in generale preferite sempre la codifica UTF-8.
Se dovete progettare una piattaforma che farà largo uso di XML e feed considerate l’ipotesi di codificare fin dall’inizio tutti i contenuti in UTF-8 anche se il target di pubblicazione è puramente occidentale.
Vi eviterete numerose grane in futuro.
Già che hai sollevato l’argomento… in your experience (‘nella tua esperienza’?) s’incontrano problemi di encoding negli RSS (e xml più in generale) soprattutto quando si cambia charset, o anche quando si progetta in UTF fin dal principio?
p.s. non è che per caso ci sono nascosti da qualche parte feed dei commenti ai singoli post? ;-)
Se si progetta con una codifica e poi la si varia è inevitabile incorrere in errori di charset soprattutto nel caso ci si appoggi ad un database.
Di default è consigliabile applicare al database la stessa codifica charset delle pagine in uso.
Cambiando codifica sarebbe opportuno variarla anche nel database ma inevitabilmente si prospettano numerosi errori.
Progettare già in UTF-8 normalmente semplifica notevolmente qualsiasi passaggio, consente di produrre XML senza ulteriori step e garantisce pochi problemi anche nel caso si decida di creare in futuro più versioni linguistiche.
No, in realtà ci sono nascosti degli altri feed su altre cosette. :oP
Che tipo di feed proporresti? Ultimi commenti?
Non sarebbero affatto scomodi feed con gli ultimi 5-10 commenti, uno (feed) per post, ala WordPress. Semplificherebbe di molto seguire l’andamento delle discussioni nei commenti :-)
Non ti seguo… un feed per post o un feed per tutti i commenti?
Uno per post, possibilmente.
Mmm, uno per post lo escludo.
Carico eccessivo in elaborazione, al momento inutile. :)
Carico eccessivo? Basta un feed creato dinamicamente. ;-)
Mi rendo conto che però, se non è nel ‘core’ di MT, implementarlo probabilmente sarebbe un lavoraccio. Ma per lo meno metti un mailer che avvisi dei nuovi commenti! :-)
(Gli effetti di questa mancanza ce li hai di fronte a te… basta guardare quanto tempo c’è tra un mio commento e l’altro!)
Gli errori più comuni nei feed
Sam Ruby fornisce un report settimanale sui principali errori contenuti nei feed e riscontrati da Feed Validator.