우리가 구글봇이라고 부르는 Googlebot은 티스토리, 워드프레스 및 기타 웹사이트를 운영하는 사람들이 간택당하길 기다리는 존재이다. 우리가 SEO(검색엔진최적화)를 다해놓고, 콘텐츠를 기획해서 발행하고 구글 상위노출이 되는 순간까지 몇 가지 단계가 존재하는데 이는 아래와 같다.
- 구글봇이 내 웹사이트의 정보를 크롤링(Crawling)한다. ▶ 크롤링된 웹페이지(문서, 콘텐츠)가 정상적으로 구글에 색인된다. ▶ 구글 검색 시 검색 이용자들에게 내 문서가 노출된다.
위와 같은 과정에서 SEO에 맞지 않는 문서나 문서 내 유해 콘텐츠 및 어떠한 에러가 발생할 경우 제대로 색인되지 않는 문제가 발생한다. 아무튼, 우리는 이렇게 검색 봇이 크롤링하는 과정 속에서 노출과 누락의 희로애락을 함께하게 되는데 이는 구글뿐만 아니라 네이버, 다음, 네이트 등 모든 검색 엔진에 동일하게 적용된 알고리즘이라 볼 수 있겠다.
구글은 물론 네이버 등 대형 검색 엔진을 운영하는 IT 기업들은 그 알고리즘을 투명하게 공개하지 못하고 있는데 그 이유는 마케팅 강사로서도 잘 이해하는 부분이고, 수강생들에게도 곧잘 설명하고는 한다. 하지만 제아무리 강사라고 해도 상위노출에 늘 성공하는 것은 아니니 가끔은 그 알고리즘을 상세히 탐닉하고픈 욕심이 생길 때가 있기는 한다.
1. 구글 검색 봇이란?
일단 구글봇은 두 가지 유형의 웹 크롤러로 작동한다.
- googlebot 데스크톱
- googlebot 스마트폰
위 두 가지는 PC(데스크톱)과 스마트폰(휴대폰 및 패드 등) 환경에서 서치를 하는 검색 이용자들에게 적당한 문서를 노출시켜 주기 위해 활동하는 구글의 검색봇이다. 수억건의 웹사이트와 웹페이지를 방문하며 적당한 문서를 찾아(크롤링) 검색에 등록(색인)하거나 건강하지 못한 웹 콘텐츠 구성은 색인하지 않는다.(누락)
2. 어떻게 사이트를 액세스 하지?
구글봇은 평균적으로 몇 초에 한 번씩 사이트를 액세스 한다. 하지만 이 주기가 길어질 수도 있고, 짧아질 수도 있는 법이다.
웹이 확장됨에 따라 성능의 향상을 위해 수천 대의 컴퓨터에서 동시에 실행될 수 있도록 세팅된 구글봇은 서버에 무리를 주지 않으며 가능한 한 많은 페이지를 크롤링한다. 즉, 구글봇이 당신의 블로그나 웹사이트에 방문해 봤자 문제가 될 가능성이 전혀 없다는 것이다.(구글봇이 방문했다고 해서 어뷰징 가능성이 있지 않음을 의미.)
또한, 이 봇이 방문하면 주로 출처는 미국의 IP로 남는다. 만일 당신이 블로그나 웹사이트를 다른 국가에서 방문하는 것을 차단한 상태라면 이 봇은 어떻게 해서든 해당 국가의 IP로 우회해서 크롤링을 시도할 것이다. 당신이 구글에 상위노출되는 것을 반기지 않을 생각이라면 구글 검색봇의 방문을 "차단"하면 된다.
3. 구글봇이 방문하지 못하도록 차단하는 방법
사실 불가능하다고 볼 수 있다. 하지만 네이버에서는 서치 어드바이저를 이용해 구글 검색봇의 방문 차단이 가능한데 이것도 100% 예방하는 것이 아니라 인위적으로 조작하는 것에 불과할 뿐이다. 아울러 당신의 웹사이트가 구글에 노출되지 못한다면 운영하는 이유가 하등 없을 것이다. 일기장이 아니라면.
그럼에도 구글 검색봇이 방문하지 못하도록 차단하는 5가지 방법이 있다. 그 방법은 아래와 같다.
- 사이트에서 콘텐츠 삭제하기.
- 파일을 Password를 통해 보호하기(비공개 발행 및 네이버 블로그로는 검색 비허용 처리 등)
- noindex 규칙을 사용하기.
- robots.txt을 사용해 방문 차단하기(네이버 서치어드바이저에서 시도할 수 있음)
- 구글에 요청해 보기.
구글 검색봇은 우리의 웹문서를 위와 같이 크롤링하며, 또 위와 같이 차단할 수도 있다.
'떠나야 남는다' 카테고리의 다른 글
이탈리아 로마 여행 가볼 만한 곳 7선 (8) | 2024.09.05 |
---|---|
2024년 국제아트페어 8월 진행 K아트페어대전 DKAF (0) | 2024.07.18 |
충주 여행지 데이트코스 5군데 추천 (3) | 2024.05.07 |
내가 뽑아본 충주 카페 가볼 만한 곳 TOP 7 (1) | 2024.04.24 |