Errori XML nei feed

January 17th, 2006 at 9:11 pm • permalink8 comments

La presenza di caratteri UTF-8 non validi è l’errore più frequente nella diffusione di feed Atom ed RSS. A diffondere la notizia è il team di Google Reader che ha pubblicato una classifica dei principali errori riscontrati nel tentativo di leggere e mostrare i feed. L’elenco è il risultato di un’analisi dei feed aggiunti nel lettore dagli utenti in un lasso di tempo non specificato.
Seguono a pochi punti di differenza tag annidati non correttamente ed entità utilizzate ma non definite.

A proposito della codifica UTF-8 devo spezzare una lancia a favore degli utenti.
La documentazione esistente in rete sulle varie codifiche è tutt’altro che chiara e semplice e solo i linguaggi di programmazione più avanzati offrono funzioni specifiche per la conversione di caratteri.
Ad esempio, se tentate di lavorare con ASP + UTF-8 preparatevi spiritualmente perché è tutt’altro che una passeggiata soprattutto per gli italiani, assillati da parole piene di accenti e caratteri speciali.
PERL e PHP, fortunatamente, offrono maggiore affidabilità ma attenzione ai settaggi di database e codifiche del webserver.

Un consiglio: se desiderate lavorare con feed ed XML in generale preferite sempre la codifica UTF-8.
Se dovete progettare una piattaforma che farà largo uso di XML e feed considerate l’ipotesi di codificare fin dall’inizio tutti i contenuti in UTF-8 anche se il target di pubblicazione è puramente occidentale.
Vi eviterete numerose grane in futuro.

Filed in Feed • Tags: , ,


Comments

Già che hai sollevato l’argomento… in your experience (‘nella tua esperienza’?) s’incontrano problemi di encoding negli RSS (e xml più in generale) soprattutto quando si cambia charset, o anche quando si progetta in UTF fin dal principio?

p.s. non è che per caso ci sono nascosti da qualche parte feed dei commenti ai singoli post? ;-)

Se si progetta con una codifica e poi la si varia è inevitabile incorrere in errori di charset soprattutto nel caso ci si appoggi ad un database.

Di default è consigliabile applicare al database la stessa codifica charset delle pagine in uso.
Cambiando codifica sarebbe opportuno variarla anche nel database ma inevitabilmente si prospettano numerosi errori.

Progettare già in UTF-8 normalmente semplifica notevolmente qualsiasi passaggio, consente di produrre XML senza ulteriori step e garantisce pochi problemi anche nel caso si decida di creare in futuro più versioni linguistiche.

p.s. non è che per caso ci sono nascosti da qualche parte feed dei commenti ai singoli post? ;-)

No, in realtà ci sono nascosti degli altri feed su altre cosette. :oP
Che tipo di feed proporresti? Ultimi commenti?

Che tipo di feed proporresti? Ultimi commenti?

Non sarebbero affatto scomodi feed con gli ultimi 5-10 commenti, uno (feed) per post, ala WordPress. Semplificherebbe di molto seguire l’andamento delle discussioni nei commenti :-)

Non ti seguo… un feed per post o un feed per tutti i commenti?

Uno per post, possibilmente.

Mmm, uno per post lo escludo.
Carico eccessivo in elaborazione, al momento inutile. :)

Carico eccessivo? Basta un feed creato dinamicamente. ;-)

Mi rendo conto che però, se non è nel ‘core’ di MT, implementarlo probabilmente sarebbe un lavoraccio. Ma per lo meno metti un mailer che avvisi dei nuovi commenti! :-)

(Gli effetti di questa mancanza ce li hai di fronte a te… basta guardare quanto tempo c’è tra un mio commento e l’altro!)

Gli errori più comuni nei feed

Sam Ruby fornisce un report settimanale sui principali errori contenuti nei feed e riscontrati da Feed Validator.

Add a Comment




Follow Me
    Random Quote