sabato 19 febbraio 2011

utilizzo di XENU



XENU per controllare anche i domini ce vengono linkati

se la copia cache è vecchia ALLARME

6 mesi vecchia se superiori ai 45 giorni c'è problema...
allora si deve vedere se la pagina viene scaricata dallo 
spider ma non aggiornata...


Dare a XENU 
Un elenco di url qualunque per fare un check di domini
per vedere se esistono o no

Esempio pratico

esistono delle piattaorme che permettono agli utneti di creare forum
molti di questi forum hanno una vita molto breve e a volte vengono chiuse

Cosa sucede ad un form che viene chiuso?
Dipende dalla piattaforma che eroga il servizio

Xenu può essere utile per recuperare forum più o meno popolari.

Quindi è possibile utilizare XENU per dargli in pasto


Si sente la necessità di uno Strumento che calcoli il PR delle pagine di un sito


Quando come per esempio con aruba
xenu viene bloccato 
modificare lo useragent di XENU

IL SEO è un ornitorinco



L'onritorinco mise in discussione le catalogazione degli scienziati ^_^
non era un uccello ma aveva il becco, era un "mammifero" perchè allattava... ma produce uova ...

:)

Il SEO è una via di mezzo tra un'ornitorinco ed un alteta di decathlon.

L'ornitorinco (Ornithorhynchus anatinus, Shaw 1799), detto anche platipo (platypus in inglese, mallangong dai nativi australiani), è un piccolo mammifero semi-acquatico endemico della parte orientale dell'Australia. È una delle sei specie ancora esistenti che compongono l'ordine dei monotremi, gli unici mammiferi che depongono uova invece di dare alla luce dei piccoli (le altre cinque sono note complessivamente col nome di echidna). È l'unico rappresentante della sua famiglia (Ornithorhynchidae) e del suo genere (Ornithorhynchus), sebbene siano stati trovati alcuni parenti fossili, alcuni dei quali anche nel genere Ornithorhynchus. Il nome scientifico del genere (come quello comune italiano) è composto da due parole greche: ornis-ornithos (ὄρνις-ιθος), che significa “uccello”, e rynchos (ῥύγχος), che significa “muso”. Il secondo termine del nome scientifico della specie è invece derivato dal termine latino per anatra: anas-atis.





Migliorare la condizione di un sito per ottenere un miglioramento di visibilità.

Cosa succede ad un sito web accessibile agli spider senza testo nei title e senza intestazioni?


Quando lo pider si trova dif ronte ad una risorsa priva di strittura, per esempio privo di titolo e di intestazione (h1 ecc), è stato verifcato
che lo spider preleva una frase dal testo, non sepre la prima frase.

Nel testo osservato le varie pagine riposrtavano la scritta TItolo: che venica omessa dallo spider

Sia Yahoo che Google sono capaci di identificare ed interpretare correttamente l'html non "correttamente" formattato.
come per sempio la capacità di identiicare un paragrafo anche senza il tag <p>.

A volte un link che è presente in un paragrafo ed un secondo link in un'altro paragrafo, hanno un valore semantico diverso.
Anche grazie a tag i intestazione ecc... i motori sono capaci di valutare ed interpretare la semnaticità delle risorse linkate
anche in base agli argomenti dei singoli paragrafi.


Semanticità
Title e meta description sono mandatori.
Nel caso dei glossari, è stato osservato che una dichiarazione esplicita di glossario in html
<dl>
 <dt>...</dt>
 <dd></dd>
</dl>

TAG da usare i tag di acronimi


I link inseriti nei paragrafi fa diferenza se il link è nel paragrafo in cima ch non un link presente in un paragrafo successivo.

Uno dei controlli da fare quado si analizza una pagina per valutare la sua potenzialità
è valutare se agli occhi dell'utente finale viene valorizzato il contenuto più strategico.

Non date ecessiva importanza alla presenza nel codice ma al reale posizionamento nella pagina.

Gli i-frame e la compatibilità con Google


- cosa viene scaricato dagli spider
- cosa viene indicizzato dal motore
- a quali risorse vengono associati i contenuti
- come possono essere sfruttati


La stessa risorsa che viene chiamata in iframe da tutto il sito può rievere rank...

www.giacomopelagatti.it

Google si è mostrato molto veloce ad indicizzare ed a mostrare il contenuto della pagina in iframe
Mentre Yahoo e Bing ci hanno messo mesi.

Anche con un Javascript offuscato.

Nel caso, si dovrebbe specificare tramite robots.txt per impedire ai bot di passare.

Un link all'interno di uno IFRAME ciene associato al contenitore della pagina iframe non all apagina stessa.

Gestione della duplicazione



- Gestione richieste HTTP e HTTPS
- Gestione richieste a "www" e "non: www"
- assenza ID di sessione negli URL
- Naming: coerenza maiuscole minuscole
- Naming: nome index implicito/esplicito
- Naming nome delle risorse univoco
- Ordine univoco dei parametri
- Versioni alternative delle pagine (es: stampa)
- Sistemi di paginazione
- Gestione dei contenuti non esistenti



# Gestione richieste a "www" e "non: www"
è bene effettuare un redirect 301 tra uno e l'altro

# assenza ID di sessione negli URL
per i motori è bene che non siano indicizzati gli url con id di sessione, importante anche perchè potrebbe contenere dati sensibili.

il cloaking in questo caso può essere d'aiuto

Attenzione quindi alle id di sessione ma anche a chiamate di ID che possono sonigliare agli ID di sessione.
il REL Canonical può essere un buon strumento. ma a volte il cloacking può essere la soluzione migliore.




# Naming: coerenza maiuscole minuscole
la soluzione migliore è quella di inserire un automatismo che generi solamente url in minuscolo


# Naming: nome index implicito/esplicito


robots.txt
Disallow /
e poi delle righe per segnalare un url speciica
url$

è impostare il dollaro impedisce la ricerca ricorsiva prevista dal protocollo del robots.txt



# Naming nome delle risorse univoco
può capitare che la stessa risorsa abbia la possibilità di essere richiamata tramite diverse url.
anche in questo caso è bene impostare le linee guida iniziali.



# Ordine univoco dei parametri
evitare che una risorsa possa essere richiamata sia con url/?param1=XXX&param2&YYY che con url/?param2=YYY&param1&XXX
questo spesso accade in molti CMS.


# Versioni alternative delle pagine (es: stampa)
problema relativo sopratutto al contenuto, è bene non are archiviare tali pagine al motore, ma non sempre
per esempio, un PDF anche se ha contenuto duplicato può essere anche opportuno diffondere il DF e farlo archiviare dal motore.
In modo che si trasformi magari in uno strumento di link popularity.

In genere i motori riconoscono nei file PDF una fnzione diversa rispetto alle pagine tendendo a non considerarle come duplicati

# Sistemi di paginazione
sono l'unica strada con cui gli spider possono accedere in profondità alle risorse di un sito

ci sono delle criticità, per esempio, molti CMS hanno l'abitudine di mostrare la prima pagina sia con pag=1 che senza...
si dovrebbe rimuovere pag=1 oppure usare sempre il paametro di pagina anche nel caso in cui la pagina sia la prima

Nel casi in cui le diverse categorie del sito hanno prodotti articoli ecc



# Gestione dei contenuti non esistenti
è molto importante la gestione dei 404.

DOMINI SCADUTI



migliaia di domini .it che possono essere riattiati e che hanno molti backlinks

esistono delle criticità di tipo legale

es: molti siti di banche che potrebbero essere registrati.

andare a registrare un marchio popolare ha dei palesi problemi legali
ma il problema è riscontrabile sia per piccoli brand che per domini con nome e cognome.

Quindi la prima cosa da fare è verificare che il dominio non appartenga ad un brand.


alcuni nomi a dominio possono essere bruciati per motivi SEO/SPAM
come fare per rendersene conto: in parte verificando i backlinks dei domini scaduti

Majestic SEO è uno strumento di riferimento anche perchè sono molti anni che fa croowuling ARCHIVE.org per i contenuti

Per fare networking è bene differenziare anche i dati di registrazione del dominio...

Un buon dominio ancora nelle grazie del motore riappare nelle SERP in poche ore, 2 gg max

ATTENZIONE anche ai contenuti ripubblicati, può avere un senso inserire dei contenuti semanticamente vicini Non inserire i contenuti che erano in precedenza! Sopratutto per problemi di copyright.

In genere "Ravanare" nel vecchio web directory forum e blog non aggiornati da almeno due anni.

Presenza di una struttura gerarchica



Realizzare una struttrira gerarchica ben congeniata con in mente sempre il seo è molto importante.

Pensare alla produzione di canali di acesso alternativi tramite creazione di tag automatici ed altro in modo da creare delle strade alternative per gli spider in modo che possano trivare delle classificazioni particolari come per esempio specifici soggetti, brad ecc...

In genere l'AUTO TAG può essere proprio molto utile!