Sempre più webmaster creano siti basati su informazioni pubblicamente disponibili, come data feeds, articoli, news o blog. Il risultato è la proliferazione dei siti con contenuto duplicato, che offrono informazioni già reperibili altrove nel web.
Nei casi in cui questi siti sono basati esclusivamente su news feeds o data feeds via rss, il loro contenuto può risultare completamente identico ai siti sorgenti, eccetto per la struttura e design.
Tante copie dello stesso materiale nell’archivio di un motore di ricerca non fa bene, Google ha deciso quindi di spazzare via il contenuto duplicato per poter fornire risultati di ricerca più validi ai propri utenti.
I siti copiati e duplicati nella loro interezza sono stati quelli peggio colpiti. Se un webmaster pubblicava lo stesso contenuto su più domini (anche involontariamente, con un semplice domain alias attivato in buona fede) poteva subire la penalizzazione o anche rimozione di tutte le sue pagine. Siti che promovevano programmi di affiliazione hanno visto un notevole calo del loro posizionamento con relativo calo delle viste da Google. Sui forum specializzati il fenomeno iniziava a cadere nel mirino dei webmaster, la maggioranza dei quali concordava sul fatto che sono stati applicati dei nuovi filtri per i contenuti duplicati.
I contenuti duplicati non sono però sempre illeciti o inutili. La riproduzione di materiale divulgativo, comunicati stampa, e infine la diffusione di notizie via rss sono procedure del tutto lecite. Google ha anche un programma dedicato per la propria pubblicità contestuale nei feeds, quindi, in qualche modo può avere anche un interesse diretto per non penalizzare le pagine aggregate. L’esperienza invece è diversa: le pagine con le news feeds sono difficili da indicizzare, sono spesso penalizzate, fino a mettere in pericolo il ranking complessivo di tutto il sito.
Copia un paragrafo intero della pagina ed incollala nel box di ricerca di Google. Se trovi il testo originale tra i primi risultati, ma la tua pagina non appare tra i primi, allora o ancora non sei stato indicizzato o la pagina è stata rimossa. Clicca anche sul link “ripeti la ricerca includendo i risultati omessi.”. C’è una buona probabilità che la pagina duplicata sia tra questi risultati, vale a dire che anche se la pagina non è stata rimossa dall’indice, è penalizzata e nascosta per via del filtro antiduplicazione.
Senza voler difendere il plagio – anche a scuola è punito chi copia – esistono più metodi per acquisire contenuti esistenti e riusarli per creare contenuto nuovo, con l’intento di essere non solo utili al lettore, ma anche efficace contro i filtri di contenuti duplicati.
Infine, non solo per evitare il contenuto duplicato, ma anche per migliorare il Google PageRank delle pagine, cerca di non indicizzare le pagine del tuo sito sia nella versione con www e senza www, usando il mod_rewrite o altri metodi di reindirizzamento.
Garantirà tutto questo di avere un buon posizionamento? Non si sa. Il sito che mira al successo dovrebbe fornire esclusivamente contenuti originali. Qualsiasi altra cosa si può trovare altrove, quindi non ha particolare ragione per essere on-line. E se il tuo obiettivo non è quello di attirare visite dai motori con le pagine duplicate, allora tieni queste pagine in un’area separata, ed usa il file robots.txt per evitare la loro indicizzazione.