아카이브

구글 블로그 robots.txt 설정 방법


robots.txt는 웹사이트에 정보를 수집하러오는 검색엔진 크롤러, 스파이더, 로봇 등등에게 제한을 두거나 정보 수집을 허용할때 사용합니다.

구글 블로그에서는 관리자 페이지의 검색 환경설정에서 확인할 수 있습니다.





기본적으로 구글에서 만들어준 robots.txt를 사용합니다만, 수정을 하여 맞춤 robots.txt도 사용 가능합니다.



이게 구글에서 기본으로 지정되어있는 robots.txt 내용입니다.


User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://블로그주소.blogspot.com/sitemap.xml


사실 여기서 더 수정할 필요가 없는데, 그래도 도움이 될지 모르니 밑의 코드를 추가해주면 됩니다.


Sitemap: https://블로그주소.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=150


글의 갯수가 많아질때마다

Sitemap: https://블로그주소.blogspot.com/atom.xml?redirect=false&start-index=151&max-results=300
Sitemap: https://블로그주소.blogspot.com/atom.xml?redirect=false&start-index=301&max-results=450
Sitemap: https://블로그주소.blogspot.com/atom.xml?redirect=false&start-index=451&max-results=600


start-index와 max-results의 값을 150씩 올려서 추가하면 됩니다.



이제 세세한 설정 방법을 알려드리겠습니다.

이는 구글 블로그 말고도 다른 웹사이트의 robots.txt에도 적용됩니다.

robots.txt는 보통 밑의 코드처럼 구성이 되어있습니다.


User-agent:
Disallow:
Allow:
Sitemap:

User-agent는 우리의 웹사이트나 블로그에서 정보를 수집해가는 봇의 이름이고 Dsallow:는 그 봇이 수집해서는 안되는 것, 그리고 Allow는 그 봇이 수집해도 되는 것입니다.

User-agent: *는 모든 봇을 뜻합니다.

그럼 User-agent: Mediapartners-Google는 Mediapartners-Google이라는 정보 수집 봇을 뜻하겠죠?

Disallow와 Allow는 기본 주소를 제외한 뒤쪽 부분을 적습니다.

예를 들어서 https://블로그주소.blogspot.com/search라는 페이지의 정보수집을 제한하고 싶고 https://블로그주소.blogspot.com/search/kimchi 는 허용하고 싶다면:

User-agent: *
Disallow: /search
Allow: /search/kimchi

가 됩니다.

Sitemap:은 봇에게 사이트맵의 위치를 알려주는 것이기 때문에 사이트맵이 있는 url을 적어주면 됩니다.

블로그를 검색엔진에 보여지고 싶지 않으신분들은

User-agent:*
Disallow:/

를 사용하시고 세세한 조정은 정보를 수집하는 봇마다 설정하시거나 전체봇(*)에 대하여 페이지 접근을 막으시면 됩니다.

참고로 봇의 접근을 막을때에는 쓸때없이 자주 긁어가거나 같은 기업에서 같은 용도로 정보를 수집하는 봇을 막으면 좋습니다.

이 부분은 트래픽 걱정없는 서비스형 웹사이트(구글 블로그, 네X버 블로그, 등등)는 상관없습니다.
(서비스형은 알아서 처리합니다.)

댓글 없음:

댓글 쓰기