sabato 19 febbraio 2011

Gestione della duplicazione



- Gestione richieste HTTP e HTTPS
- Gestione richieste a "www" e "non: www"
- assenza ID di sessione negli URL
- Naming: coerenza maiuscole minuscole
- Naming: nome index implicito/esplicito
- Naming nome delle risorse univoco
- Ordine univoco dei parametri
- Versioni alternative delle pagine (es: stampa)
- Sistemi di paginazione
- Gestione dei contenuti non esistenti



# Gestione richieste a "www" e "non: www"
è bene effettuare un redirect 301 tra uno e l'altro

# assenza ID di sessione negli URL
per i motori è bene che non siano indicizzati gli url con id di sessione, importante anche perchè potrebbe contenere dati sensibili.

il cloaking in questo caso può essere d'aiuto

Attenzione quindi alle id di sessione ma anche a chiamate di ID che possono sonigliare agli ID di sessione.
il REL Canonical può essere un buon strumento. ma a volte il cloacking può essere la soluzione migliore.




# Naming: coerenza maiuscole minuscole
la soluzione migliore è quella di inserire un automatismo che generi solamente url in minuscolo


# Naming: nome index implicito/esplicito


robots.txt
Disallow /
e poi delle righe per segnalare un url speciica
url$

è impostare il dollaro impedisce la ricerca ricorsiva prevista dal protocollo del robots.txt



# Naming nome delle risorse univoco
può capitare che la stessa risorsa abbia la possibilità di essere richiamata tramite diverse url.
anche in questo caso è bene impostare le linee guida iniziali.



# Ordine univoco dei parametri
evitare che una risorsa possa essere richiamata sia con url/?param1=XXX&param2&YYY che con url/?param2=YYY&param1&XXX
questo spesso accade in molti CMS.


# Versioni alternative delle pagine (es: stampa)
problema relativo sopratutto al contenuto, è bene non are archiviare tali pagine al motore, ma non sempre
per esempio, un PDF anche se ha contenuto duplicato può essere anche opportuno diffondere il DF e farlo archiviare dal motore.
In modo che si trasformi magari in uno strumento di link popularity.

In genere i motori riconoscono nei file PDF una fnzione diversa rispetto alle pagine tendendo a non considerarle come duplicati

# Sistemi di paginazione
sono l'unica strada con cui gli spider possono accedere in profondità alle risorse di un sito

ci sono delle criticità, per esempio, molti CMS hanno l'abitudine di mostrare la prima pagina sia con pag=1 che senza...
si dovrebbe rimuovere pag=1 oppure usare sempre il paametro di pagina anche nel caso in cui la pagina sia la prima

Nel casi in cui le diverse categorie del sito hanno prodotti articoli ecc



# Gestione dei contenuti non esistenti
è molto importante la gestione dei 404.

Nessun commento:

Posta un commento