Tutto WebMaster - Ottimizzazione e posizionamento siti - http://www.tuttowebmaster.eu
Valore del sito
http://www.tuttowebmaster.eu/art/22/1/Valore-del-sito.html
Da Francesco Iammuri
Pubblicato il 07/16/2006
 

Il concetto di attribuire un valore ad un documento ed usarlo per meglio restituire i risultati delle ricerche è alla base delle diverse tecnologie che usano i motori di ricerca


Google PageRank
Il concetto di attribuire un valore ad un documento ed usarlo per meglio restituire i risultati delle ricerche è alla base delle diverse tecnologie che usano i motori di ricerca: alcuni attribuiscono maggior valore ai fattori di ottimizzazione interna del sito, altri, come Google, hanno sviluppato il proprio algoritmo sulla popolarità di un sito internet.
Il PageRank, detto anche indice di popolarità, è una delle tecnologie centrali di Google:
la sua origine risale a un articolo tecnico scritto dai fondatori di Google, Lawrence (Larry) Page e Sergey Brin, quando studiavano ancora all'Università di Stanford intitolato "The Anatomy of a Large-Scale Hypertextual Web Search Engine". PageRank non conosce siti ma singoli documenti.

Il funzionamento del PageRank, fondamentalmente, è piuttosto semplice e si basa sul numero di link effettuati a una determinata pagina da altre pagine Web, più link esistono a una determinata pagina e più questa diventerà "importante".
Ogni link viene considerato come un voto espresso dalla pagina che integra il collegamento ipertestuale alla pagina correlata. PageRank si basa sul concetto che la qualità di un documento possa essere riconoscibile dalla quantità e dalla qualità dei link che riceve da altri documenti esterni.

Tempo fa lessi una guida a Google, in cui si diceva che PageRank risentisse della attinenza dei contenuti a quella delle pagine correlate: ma nella formula originale del PageRank non ci sono fattori che indicano la tematizzazione dei contenuti.
La formula per il calcolo del PageRank potrebbe essere stata aggiornata, ma, come testimoniano l’algoritmo di ordinamento dei risultati Hilltop e il database dei vettori di termini per riconoscere il tema trattato nei documenti, sarebbe più facile che siano stati implementati nuovi sistemi per la modifica dei punteggi generati da PageRank Risorse di riferimento: link utili all’approfondimento del tema trattati.

Pagerank Explained. Google's PageRank and how to make the most of it. - Pagerank spiegato; un ottimo articolo con spiegazione della formula per il calcolo di PageRank.
Google PageRank Checker - Check Google page rank of any web pages - Page Rank
Checker è uno strumento gratuito per verificare il PageRank del tuo sito.


Google TrustRank
Ultimamente Google, ha registrato un’altra tecnologia di nome TrustRank, che secondo molti affiancherà il PageRank nell’algoritmo del motore di ricerca.
Zoltàn Gyongyi e Hector Garcia-Molina del Computer Science Department dell’Università di Stanford insieme a Jan Pedersen di Yahoo! Inc. sono gli autori di una pubblicazione dal titolo Combating Web Spam with TrustRank.

TrustRank nasce per combattere lo SPAM: nell’introduzione della pubblicazione si legge:

“Mentre un utente esperto può facilmente identificare lo SPAM, è troppo dispendioso valutare manualmente un grande numero di pagine web. Proponiamo, quindi, delle tecniche semi-automatiche per separare le pagine buone dallo SPAM. Prima si sceglie un piccolo insieme di pagine, da valutare da un esperto, considerate come “semi”: una volta che abbiamo
identificato manualmente i “semi”, usiamo i link contenuti per scoprire altre pagine che potrebbero essere buone. Basando il nostro esperimento sugli indici di Altavista, i risultati che proponiamo mostrano come una lista di circa 200 buoni “semi” possano effettivamente combattere e filtrare lo SPAM dai risultati delle ricerche.”

La grossa e sostanziale novità quindi risulta essere l’impiego di risorse umane nei sistemi di ordinamento dei risultati: saranno tecnici esperti a selezionare la lista di partenza di siti “fidati” da cui partire nella ricerca di documenti e contenuti di qualità grazie ai sistemi di linking di internet.
Uno degli aspetti interessanti è che sicuramente non saranno più utili molti di quei trucchi e stratagemmi usati per aumentare il ranking: per avere un buon posizionamento su Google sarà sempre più necessario realizzare delle pagine di buona qualità, interessanti, ricche di contenuti e con relazioni con altri siti web correlati. In sintesi, realizzare siti di qualità.

Risorse di riferimento: link utili all’approfondimento del tema trattati.
TrustRank: presentazione e approfondimenti
Il brevetto Trustrank


Il database dei vettori dei termini
Sicuramente, come si può notare dalle serp, la tematizzazione dei contenuti è un fattore molto importante da prendere in considerazione nell’analisi dei link: un link da una pagina a tema, su un sito ben categorizzato e tematizzato su quel tema, ha un'influenza maggiore di un link da una pagina di un sito non in tema.
Ma un motore di ricerca come riconosce il tema trattato da un documento?

Cito Posizionamento-Web: “Lo studio “The Term Vector Database: fast access to indexing terms for Web pages” risale al 2000 ed è opera di tre studenti della Stanford University: Raymie Stata, Krishna Bharat e Farzin Maghoul. Bharat è stato assunto nel 2003 da Google ed è a lui che è stata affidata la progettazione Google News, una applicazione che probabilmente ha molto a che spartire con l’oggetto di questa pubblicazione. Nel documento viene illustrata la realizzazione di uno speciale database chiamato “database dei vettori di termini”, che permette, partendo dall’URL di un documento presente nel database principale del motore di ricerca, di accedere velocemente ad una struttura di dati contenente la lista dei termini presenti nel documento, il peso e le posizioni di ciascun termine nel documento ed il peso del termine nell’intera collezione dei documenti indicizzati dal motore.”

Questo rispecchia sempre il fine del motore di ricerca che è quello di fornire all'utente dei risultati di qualità: individuare il tema trattato da un documento può essere utile nella valorizzazione dei link: Google riconosce se il link fornito possa essere più o meno utile all'utente, e, da questo, pesare in maniera differente link e valore della pagina.

Pensiamo alla soddisfazione all’utente: nella sua navigazione e nella lettura di un documento, l’utente preferirà sicuramente visitare dei siti di approfondimento, o comunque che trattino argomenti correlati al documento che sta leggendo, piuttosto di visitare dei siti non a tema con l’argomento che lo interessano.

ESEMPIO: un sito che parla di musica, con diverse sezioni e categorizzazioni del tema musica, in una sua pagina in cui si parla della discografia di un autore, propone dei link ad un sito di cucina. Quanto peso pensi possa avere quel link rispetto ad un link, per esempio, al sito dell'autore, oppure ad un'altra pagina di un altro sito che approfondisce album per album la
discografia?

Risorse di riferimento: link utili all’approfondimento del tema trattati.
Wikipedia – Vector Space Model
WikiGT – Vector Model


Hilltop
Hilltop è un algoritmo per l’ordinamento dei risultati delle ricerche con il quale si possono assegnare ai documenti dei punteggi di “autorevolezza” e andare a modificare gli ordinamenti dei risultati ottenuti con l’analisi della tematizzazione dei contenuti o con il PageRank.
Khrisna Bharat, ingegnere di Google e creatore di Google News, insieme a Gorge A. Mihaila, pubblica, nel 2002, “when experts agree: using non affiliated experts to rank popular topics” in cui si affronta il problema di ordinare un grande numero di documenti in una “rete” in cui non si conosce l’autorevolezza dei documenti da ordinare.
Nel Web esiste una grande quantità di documenti considerati SPAM, cioè documenti scritti con il solo scopo di raggiungere dei buoni posizionamenti sui motori di ricerca e non pensando alla soddisfazione dell’utente.

Hilltop cerca di affrontare questo problema prendendo come “guide” diversi documenti giudicati “esperti” ed autorevoli nel loro argomento e usandoli per “guidare” il posizionamento degli altri documenti in tema con l’argomento.
Hilltop cerca di risolvere anche uno dei limiti fondamentali del PageRank, cioè “non poter distinguere fra pagine ritenute importanti e prestigiose in generale e pagine “esperte” nell’argomento ricercato.
Hilltop infatti considera soltanto i link provenienti da quei documenti giudicati “esperti” nella ricerca effettuata, dei documenti che fanno “da guida” per l’utente verso risorse di qualità per l’argomento desiderato.

Risorse di riferimento: link utili all’approfondimento del tema trattati.
Pubblicazione originale Hilltop