Bez względu na to czy zlecają zadania agencji interaktywnej czy agencji SEO, klienci proszeni są o podanie dostępu do serwera FTP. Niestety, nie wszyscy ufają agencjom na tyle, aby dać im tak obszerny dostęp. Wielu klientów zadaje pytanie, dlaczego takie dane są wymagane. Jako osoba, która na co dzień pracuje w agencji SEO360 Grupa iCEA, w tym artykule postaram się to wytłumaczyć.

Na początek wyjaśnię podstawowe pojęcia, które nie zawsze są poprawnie rozumiane, a ich błędne pojmowanie często hamuje podanie dostępów do strony i tworzy dodatkowe, niepotrzebne obawy. 

Czym jest serwer? 

Na początek wyjaśnimy pojęcie serwera i jego roli w budowie strony www. Mówiąc potocznie, serwer to miejsce, w którym przechowywane są pliki źródłowe strony oraz media. Serwer to urządzenie lub program, w którym strona WWW jest dostępna przez cały czas. Na serwerze każda osoba posiadająca stronę www ma określoną ilość miejsca. Istnieją różne rodzaje serwerów ‒ można zakupić serwer dedykowany, VPN czy miejsce na serwerze wspólnym, gdzie strona oraz serwer zarządzane są przez firmę hostingową.

Na samym początku przygody z tworzeniem serwisu czy rozwijaniem firmy korzystamy właśnie z takiego rozwiązania, gdyż jest ono najtańsze i w zupełności wystarczające dla początkujących graczy. Przy większych serwisach www, rekomenduje się wybór serwera dedykowanego, który, jak sama nazwa wskazuje, jest przeznaczony jedynie dla naszej platformy. Taki serwer gwarantuje odpowiednią przepustowość i niezawodność. 

Oprócz tego, na serwerze przetwarzane oraz przechowywane mogą być nasze e-maile, czego przykładem jest skrzynka pocztowa LH.pl. 

Co to jest serwer FTP?

Serwer FTP to zdalny protokół pozwalający na połączenie się z serwerem z dowolnych urządzeń np. komputerów osobistych, zwanych klientami FTP. Połączenie urządzenia osobistego z serwerem FTP pozwala na zdalny d ostęp do wybranych plików na serwerze. Co to oznacza? Dostęp FTP pozwala na odczyt, kopiowanie oraz przesłanie danych z serwera na komputer i odwrotnie ‒ z komputera na serwer. 

Konta FTP w zależności od uprawnień mogą różnić się możliwościami kopiowania i wgrywania danych czy dostępem do danych. W tym przypadku można zablokować niektóre foldery na serwerze przed edycją lub wglądem do nich. Niemniej jednak warto tu podkreślić, że gdy udostępniamy konto FTP agencji SEO, należy nadać dostęp do edycji plików serwisu internetowego. Najlepiej w takim wypadku utworzyć konto FTP z dostępem ograniczonym do folderu, który zawiera pliki strony będącej przedmiotem współpracy z agencją SEO. 

Czego nie należy jednak robić lub co nie jest wskazane? Nie powinno się przekazywać dostępu do danych adresów e-mail oraz poczty ‒ dane te są poufne i zbędne do optymalizacji. 

Wiedząc już, czym jest serwer oraz połączenie FTP, możemy przejść do rzeczy. Dlaczego agencje SEO i agencje interaktywne potrzebują dostępów do serwera FTP, aby przeprowadzić optymalizację i dlaczego dostępy do CMS nie są wystarczające?

Ograniczenia systemów CMS 

Systemy CMS ułatwiają właścicielom stron obsługę witryny ‒ m.in. zarządzanie zamówieniami i treścią. Zostały stworzone, aby w prosty sposób dostosowywać treść na stronie oraz realizować strategię promocyjną. Niemniej jednak z panelu CMS nie zawsze jest możliwe wprowadzenie wszystkich koniecznych zmian technicznych, takich jak zmiana przekierowań witryny w celu usunięcia duplikatów, dodanie atrybutu rel:nofollow do linków, zmiana struktury nagłówków czy ustawienie linków kanonicznych. 

Wszystkie te elementy są istotne dla GoogleBota i są podstawą działań SEO. Każda agencja SEO rozpoczyna proces pozycjonowania od wykonania audytu technicznego pozwalającego dostosować witrynę pod wymogi wyszukiwarki. Niektóre z ww. elementów są tak ważne, że nieprawidłowo skonfigurowane nie pozwalają na wypozycjonowanie strony w czołówce wyników wyszukiwania. 

1. Edycja globalnych elementów header & footer

Z poziomu systemów CMS nie zawsze istnieje możliwość edycji kodu HTML odpowiedzialnego za strukturę strony www. Dlaczego o tym mówię? To jedne z najczęściej pojawiających się błędów, do którego naprawy potrzebny jest dostęp do FTP. Podczas badania i edycji tych elementów najczęściej zwracamy uwagę na znaczniki nagłówków HTML, które błędnie osadzane są w elementach globalnych. Nagłówki  <H1>, <H2> nie służą do stylizacji elementów i nie powinny być wykorzystywane w ten sposób przy tworzeniu globalnych widgetów. Niestety w większości stron tak się zdarza. W miejsce znaczników Hx w menu oraz w stopce należy odpowiednio zaimplementować znaczniki <p> lub <span> i je stylizować używając atrybutu class=””. Jakie znaczenie ma to dla SEO? GoogleBoty zwracają uwagę na hierarchię nagłówków na poszczególnych stronach, a znaczniki H1, H2, […], H6  są głównymi elementami, które informują go o zawartości strony. Dodatkowo dobrze stworzona hierarchia nagłówków oraz zawartość w nich fraz kluczowych pozwalają na osiągniecie wyższych wyników w poszczególnych TOP-ach wyników wyszukiwania Google. 

2. Optymalizacja Crawl Budget

Kolejnym elementem pozycjonowania, który istotnie wpływa na indeksowanie dużych witryn internetowych przez Google Bota jest optymalizacja Crawl Budget.* W celu zmaksymalizowania efektywności tego procesu używamy  odpowiednich narzędzi. Informujemy Google, które strony są istotne i warto je zindeksować, a które GoogleBot powinien pomijać. Jeśli Google poświęca zbyt dużo czasu na przeglądanie adresów URL, które nie nadają się do indeksacji (np. Polityka prywatności, informacja o plikach cookies, bądź po prostu strony Thin Content), tracimy cenny czas GoogleBota, a ważne elementy serwisu nadal mogą nie zostać zindeksowane i wzięte pod uwagę w wynikach wyszukiwania.

W celu optymalizacji Crawl Budget wykonujemy poniższe operacje z użyciem serwera FTP:

  • rel=”nofollow” ‒ wykorzystujemy atrybut HTML rel=”nofollow” przy linkach zewnętrznych oraz linkach wewnętrznych w witrynie. W ten sposób oznaczamy linki, których nie chcemy, aby były zauważone/zaindeksowane przez GoogleBota i za którymi bot nie powinien podążać.  W ten sposób blokujemy najczęściej strony Thin Content, takie jak: regulaminy, płatności i zwroty itp.  oraz wszystkie linki zewnętrzne. 
  • robots.txt ‒ robots.txt jest to plik tekstowy zawierający się w folderze głównym witryny na koncie FTP. Pozwala on na blokadę adresów URL, które nie powinny być indeksowane przez GoogleBota. Jest to jedna z najpopularniejszych i najskuteczniejszych metod optymalizacji budżetu. Dodatkowo odpowiednia konfiguracja Robots.txt pozwala na automatyczne rozpoczęcie skanowania Sitemapy witryny, poprzez dyrektywę Sitemap. 
  • Odpowiedź błędu 404 ‒ Kod 404 informuje o usunięciu danego adresu URL. Google ma dobrą pamięć do przesłanych adresów i szybko o nich nie zapomina, ale  w momencie, w którym pojawia się  błąd 404 to wyraźny sygnał, aby nie indeksować tego adresu URL ponownie. Zablokowane adresy URL pozostaną jednak w kolejce indeksowania znacznie dłużej i może pojawić się ponowna próba zaindeksowania strony przez GoogleBota. 
  • Przekierowania 301, 302 ‒  Odpowiednie przekierowania nieistniejących podstron  produktów, usług oraz kategorii to absolutny must have. Pozwala to na optymalizację Crawl Budget, ale również na wyindeksowanie strony czy przeniesienie PR**, bez większej straty w pozycjonowaniu i profilu linkowym. W celu optymalizacji serwisu stosujemy dwa przekierowania:
    • 301 ‒ stałe przekierowanie informujące Google Bota o przeniesieniu zawartości strony do nowej lokalizacji sieciowej. Przekierowanie to pozwala na przeniesienie linkowania oraz PR na nową podstronę. Google automatycznie wyrzuca z indeksu stronę przekierowaną.
    • 302 ‒ przekierowanie tymczasowe ‒ informuje GoogleBota o tymczasowym przeniesieniu treści do nowej lokalizacji sieciowej. Nie usuwa starego adresu URL z indeksu oraz nie przenosi PR. 
  • Meta Tag Robots, X- robots Tag- X-robots tag znajduje się  w protokole HTTP, w którym zawarte są zasady współpracy między programami. W tym przypadku X-robots-tag ma przekazywać informacje o tym czy dana strona/podstrona powinna zostać zindeksowana przez roboty czy też nie. Tag ten ma przypisywane wartości, takie jak Meta Robots Tag. A więc użycie tagu X-robots-TAG w nagłówku HTTP zadziała tak samo, jak użycie popularnego znacznika Meta Robots w obrębie strony www. Obydwie techniki są poprawne, a na stronie powinna występować jedna wybrana technologia blokowania stron i ich zawartości. Wprowadzenie ww. znaczników pozwala na skuteczne  blokowanie zasobów przed indeksacją. W ten sposób blokowane są najczęściej podstrony: koszyk, logowanie / rejestracja, wyszukiwanie na stronie, filtry na kategoriach / produktach. 

*Crawl Budget – (pl.  budżet indeskowania) – jest to liczba stron, bądź adresów URL, którą może zindeksować GoogleBot podczas odwiedzin serwisu. Do głównych parametrów decydujących o crawl budget należą: Crawl Rate Limit, oraz Crawl Demand.

**PR – Page Rank – jest to wartość liczbowa przypisywana stroną przez Google. Algorytm w ten sposób ocenia jakość strony. 

Użyty atrybut może posiadać przypisane wartości, takie jak: 

  1. all – wszystko zostanie zindeksowane, równoznaczny z index, follow
  2. index, follow – wszystko zostanie zaindeksowane
  3. index – strona zostanie zindeksowana
  4. follow – zostaną zindeksowane linki, w celu późniejszego odwiedzenia przez roboty
  5. index, nofollow – strona zostanie zindeksowana, lecz linki na niej nie
  6. noindex, follow – zaindeksowane zostaną tylko linki
  7. noindex – strona nie zostanie zindeksowana
  8. nofollow – nie zostaną zaindeksowane linki (nie zostaje linkom przekazana moc pozycjonująca)
  9. noindex, nofollow – roboty nie będą indeksować nic
  10. none – roboty nie będą indeksować nic, równoznaczny z pkt 9.

3. Przekierowania domeny 

Odpowiednie przekierowanie domeny to rzecz, z którą agencje SEO walczą na co dzień. Tworzenie przekierowań ma na celu zablokowanie serwisów bliźniaczych i niewyświetlanie tej samej treści serwisu pod różnymi adresami URL w wyszukiwarkach. Stworzenie przekierowań możliwe jest przez panel hostingowy lub/i najpopularniejsze zaimplementowanie przekierowania w pliku .htaccess.   Odpowiednie stałe przekierowania z adresów z www, na bez www, z http:// na https:// powinny być prostymi przekierowaniami 301, nie tworząc zbędnych łańcuchów przekierowań:

http://www.website.com → 301 → https://www.domena.pl/ – 200 OK

http://website.com → 301 → https://www.domena.pl/ – 200 OK

https://website.com → 301 → https://www.domena.pl/ – 200 OK

Nieprawidłowo zoptymalizowane przekierowanie:

http://website.com → 301 → http://www.website.com → 301 →

https://www.website.com – 200 OK

4. Edycja pliku .htaccess 

Plik .htaccess jest jednym z charakterystycznych elementów na serwerze. Pozwala on na skonfigurowanie wielu elementów, również tych wypisanych powyżej. Plik ten dostępny jest na serwerze i z tego poziomu mamy dostęp do jego wszystkich funkcji oraz pełnej edycji. Odpowiada między innymi za definiowanie stron błędów, blokowanie dostępu do zasobów w tym katalogów, wykonanie przekierowań 301, wykonanie przekierowań domeny i przepisywanie adresów URL. Na pewno już się  domyślasz, że jest to jeden z najważniejszych plików, do którego dostęp znacznie ułatwi pozycjonowanie strony www. Tak jest. Brak posiadania dostępu do pliku sprawia, że agencje SEO nie są w stanie wprowadzić w pełni optymalizacji technicznej, a późniejsze działania podejmowane w celu pozycjonowania strony www  nie są na tyle efektywne. Zablokowanie wybranych katalogów, prawidłowa implementacja przekierowań, usunięcie duplikatów wewnętrznych oraz zablokowanie serwisów bliźniaczych, ograniczenie listy adresów URL pojawiających się w wyszukiwarkach, usunięcie z indeksu stron o thin contencie – za te wszystkie działania odpowiada plik .hacccess, którego nie da się zastąpić wtyczkami czy dodatkowymi modułami.

5. Zapobieganie duplikacją rel=”canonical”

Tagi kanoniczne są często używane dla podobnych podstron o podobnej treści, aby zapobiec duplikacji. W praktyce działają mniej więcej tak, jak przekierowanie 301 – przekierowanie stałe, ale tylko dla wyszukiwarek. Użytkownicy, wchodząc na stronę, pozostaną na niej i będą mogli zobaczyć zasoby i treści. 

Wdrożenie tagu o atrybucie rel=”canonical” sugeruje robotom indeksującym, która strona powinna być uznana za „oryginalną” wśród duplikatów. Należy jednak zauważyć, że pomimo naszego wyboru algorytm może wybrać własną stronę kanoniczną, dlatego nie powinno się stosować tej metody w blokowaniu zasobów wyszukiwania czy filtracji. Tagi kanoniczne do stron umieszczane są w sekcji <head>, wybranych podstron. Ich edycja bywa niemożliwa z poziomu systemów CMS.

Wykonanie kopii zapasowej serwisu www

Popularne systemy CMS, takie jak WordPress czy PrestaShop, pozwalają na wykonanie kopii zapasowej danych witryny z poziomu panelu CMS. Najczęściej tak wykonany zrzut jest wystarczający, gdy wprowadzamy niewielkie zmiany w treści bądź dodajemy pojedyncze grafiki. Niemniej jednak podczas optymalizacji witryny agencje SEO wykonują różnego rodzaju zmiany techniczne, a posiadanie zrzutu z serwera pozwala na zachowanie 100% bezpieczeństwa. 

Trzeba pamiętać, że kopia zapasowa witryny stworzona przez panel zarządzania CMS nie zawsze jest pełną kopią. O ile w przypadku WordPressa wtyczki pozwalają tworzyć pełne backupy, w innych systemach CMS bywa tak, że kopia  zawiera jedynie zrzut bazy danych. W takiej sytuacji przy  uszkodzeniu plików systemowych nie zawsze będzie możliwość przywrócenia pełnej strony z kopii zapasowej. Szczególnie warto zwrócić uwagę na to, że aktualizacje wtyczek lub modułów potrafią wiele namieszać i uszkodzić witrynę bądź doprowadzić do utraty możliwości logowania przez system CMS. Posiadając wszystkie pliki z serwera, można w każdym wypadku przywrócić całą stronę niewielkim nakładem pracy. 

Analiza logów serwerowych 

O analizie logów serwerowych na pewno usłyszą bądź usłyszeli już właściciele większych serwisów i sklepów internetowych. Pojęcie  jest trudne i często nie jest poprawnie wytłumaczone, dlatego warto rozpocząć od tego, czym są logi serwerowe. Logi serwerowe to zdarzenia, jakie są przechowywane na serwerze. Przekazują cenne informacje dotyczące aktywności użytkowników oraz botów w witrynie. Pozwalają na przeprowadzenie wnikliwej analizy dotyczącej zachowań oraz błędów pojawiających się na stronie. Dzięki badaniu dziennika wydarzeń można wykryć niebezpieczeństwa związane z atakami, jak również poprawić funkcjonalność strony www i naprawić wiele błędów. Jednym z popularnych aspektów związanych z analizą logów serwerowych są błędy pobierania 500 i nieprawidłowe adresy URL 400. Wszystkie te błędy zostają zapisane, a dzięki ich naprawie można polepszyć UX, osiągnąć wyższą ocenę serwisu, a co za tym idzie, być widocznym w wyszukiwarkach. 

Powyżej wyjaśnione zostały podstawowe pojęcia związane z funkcjonowaniem serwerów FTP. Poznanie tych kluczowych kwestii powinno rozwiać obawy przed podaniem agencji SEO dostępu do serwera i pomóc w zrozumieniu, dlaczego jest to ważne dla owocnej współpracy. 

Artykuł odpowiedział na twoje pytanie? Udostępnij go dalej:
Obrazek domyślny
Klara Anna Witkowska

Spec. SEO

Analityk i pozycjoner stron w Grupa iCEA. Magister zarządzania sp. Trendy&Design w marketingu, wykładowca poligrafii, designu oraz grafiki komputerowej w Wyższej Szkole Bankowej we Wrocławiu. Na co dzień projektant przekazu i twórca nietuzinkowych kreacji.