Choć sporo się ostatnio dzieje w SEO na całym świecie, nie wszyscy pozycjonerzy i webmasterzy wyciągają z tego odpowiednie wnioski. Specjalnie powstrzymuję się od komentowania ostatnich zawirowań w SERP-ach, gdyż wolę je na spokojnie analizować i próbować szukać nowych rozwiązań. Jedno jest jednak pewne – Panda i Pingwin powinny dać nam nauczkę, że powinniśmy bardziej zatroszczyć się o swoje strony i ich zgodność z wytycznymi Google dla webmasterów.
Analizując wytyczne Google widzimy czarno na białym, by NIE POWIELAĆ TREŚCI! Jak się okazuje wielu webmasterów i poważnych agencji ma to gdzieś, narażając swoich klientów na karę za Duplicate Content. Dlaczego?
Jakiś czas temu, analizując stronę firmową znajomego, dostrzegłem duplikat treści zaindeksowany w Google. Była to idealna kopia strony, istniejąca na subdomenie agencji, która tę stronę wykonała. Okazało się także, że pracownicy tej agencji na co dzień stosują taką praktykę, a na pozostałych subdomenach ich strony znajdują się dziesiątki stron innych klientów. Wszystko widoczne w wynikach wyszukiwania Google!
Teraz, po jakimś czasie chciałem sprawdzić jak ta agencja radzi sobie z duplikatami. Niestety (lub stety ;)), jej pracownicy chyba w końcu zrozumieli swój błąd i nie udostępniają swoich projektów szerszej publiczności. Przynajmniej nie poprzez wyniki wyszukiwania. W sumie to nawet nie wiem. Nie sprawdzałem tego, czy zaprzestali umieszczania stron klientów na subdomenach, czy po prostu zablokowali dostęp robotom. Ważne, że nie tworzą duplikatów stron.
Przykładów jednak nie trzeba długo szukać. Postanowiłem sprawdzić lokalny rynek i wpisałem w wyszukiwarce frazę „strony internetowe białystok”. Już pierwsza firma – (TOP1!) – zaserwowała mi ładne kwiatki:
Wydaje mi się, że nie ma w tym nic strasznego, że testowa strona klienta znalazła się na subdomenie lub w podfolderze domeny webmastera. Trzeba jednak zadbać o to, by treści na takich stronach nie były dostępne robotom wyszukiwarek. Wówczas wystarczy prosta deklaracja w pliku robots.txt:
User-agent: *
Disallow: /
Można też zastosować znacznik meta w treści strony:
<meta name=”robots” content=”noindex, nofollow” />
Trzeba tylko pamiętać o tym, by usunąć go umieszczając pliki strony w docelowej domenie.
W opisanym przypadku zabrakło któregokolwiek z przedstawionych rozwiązań. Niby takie podstawy, a jednak wielu webmasterów wciąż nie zwraca na to uwagi. Świadczą o tym zaindeksowane strony klientów przykładowej agencji z TOP1. Takich wyników można niestety znaleźć dużo dużo więcej…
Rzeczywiście to bardzo proste i skuteczne, jednak trzeba pamiętać, że plik robot.txt nie blokuje indeksowania, dlatego najważniejsze jest wstawienie odpowiednich poleceń w nagłówku strony ()
Dokładnie, opisywano już przypadki, gdzie mimo disallow Google zaindeksowało witrynę. To by nawet potwierdzało to co kiedyś Google mówiło, że robots to są wytyczne a nie ścisłe reguły, których należy się trzymać.
Niektórzy zapominają jednak nawet o tych „wytycznych”. W przedstawionym przykładzie nie zastosowano ani robots.txt, ani metatagu. A to naprawdę dość powszechne błędy…
To że stawia się stronę na tymczasowej domenie to norma. To że blokuje się stronę w robots.txt i noindex też (choć widać nie dla wszystkich). Ale to że po postawieniu strony na domenie docelowej nie usuwa się z tymczasowej to jakaś patologia.
Slyszalem o przypadkach, gdy strona klienta w fazie roboczej rzeczywiscie wisiala w subdomenie,miala disallow dla robotow, ale potem w takiej formie byla oddawana klientowi…no i potem zdziwienie, czemu strona sie nie indeksuje. A jakie macie zdanie na temat canonicala?Poniekad rozwiazuje kwestie duplicate content, ale moze sie zdarzyc, ze strona w subdomenie jest i tak wyzej w serpach niz strona klienta.To tez jest raczej lipa:-)
Karlosky: Link ucięty :p
Dlatego właśnie pisałem, że używając meta tagu „robots” trzeba uważać, żeby usunąć go oddając stronę klientowi.
Canonical zapobiegłby tworzeniu duplikatu, ale jak to zrobisz, jeśli prototyp strony jest tylko na subdomenie, przed akceptacją klienta? Co będziesz wstawiał do tagu canonical? Chcesz go wstawiać dopiero po opublikowaniu strony na domenie klienta? Przecież po tym w ogóle powinno się usuwać projekt strony z własnej subdomeny.
PS. Usunąłem Ci linka, bo nic nie wnosił do dyskusji, a spamem się brzydzę ;p
Faktycznie, póki strona nie wyląduje na docelowym adresie, to nie ma co się bawić w canonicala.
Pozdrawiam
To się zgadza, najbardziej śmieszy mnie reklama 1&2 🙂 „wybierasz logo, obrazki, tekst jest już wpisany na stronę…” Szkoda gadać, ludzie dają się nabijać w butelkę jak dzieci, nie dziwo że Amber Gold takie żniwo zebrał. Pozdrawiam.
Taki błąd zdarza się często. Rzadko, która agencja się tym przejmuje
Canonical nie zawsze się sprawdza bo to jest tylko forma prośby a nie nakazu.
Bardzo mądrze napisane! Szkoda tylko, że blog już nie jest kontynuowany, bo dużo mądrych rzeczy można tu było przeczytać. Zamierzasz wrócić? 😉
Najlepiej hasło w .htaccess + .htpasswd – inaczej to proszenie się o duplikat serwisu prędzej czy później.