개인적으로 열 개가 넘는 사이트를 네이버 웹마스터 도구로 등록하고 관리했었습니다. 괜히 일만 벌였다가 지금은 그냥 방치된 많은 블로그들을 네이버 검색엔진에 등록하기 위함이었죠. 뭐 하여간 많이 써봤다는 이야기를 하고 싶었었습니다.
그리고 최근 깃헙 페이지를 하나 만들면서 이를 구글과 네이버에 등록하려 시도하고 있습니다. 구글은 볼 것도 없이 크롤링도 아주 잘 되고 사이트도 (아직 랭크가 낮아서 트래픽이 없지만) 정보가 모두 남아 있습니다. 그런데 유독 네이버는 '매우 익숙하게도' 또 아무런 정보가 없습니다. 익숙하다는 이유는 이런 일을 한두 번 겪은 게 아니기 때문이지요.
네 오늘은 한없이 가벼운 네이버 검색엔진을 주제로 살짝 글을 써 봅니다. 물론 가볍다는 이야기는 결코 호의적인 표현은 아니지요.
네이버가 가두리 양식장이라는 표현은 지금까지 아주 잘 들어맞는 표현 같습니다. 정확히 말해서, 네이버는 자신들의 도메인에 속하지 않은 외부 자료들에 대해 호의를 보이지 않습니다. 지금까지 구글 블로거와 티스토리를 이용해 다수의 블로그를 등록하고 인덱싱 되는 과정에서 항상 느꼈던 점은 하찮은 틈(?)이라도 문제 삼고 크롤링을 하지 않는다는 점이었지요.
그런데 이번엔 그 상태가 정말 심각합니다. 아무런 문제 없이 접속되는 사이트를 네이버가 크롤링 시도 조차 하지 않는 것 처럼 보입니다. 위의 스크린샷이 바로 그것이지요. 방화벽에 갇힌 것도 아니고, 로봇 룰도 아무런 제약이 걸려있지 않습니다. 하지만 위처럼 네이버는 사이트 접근을 할 수 없다는 식으로 투덜거리고 있습니다. 정확히 말해서 크롤링 요청을 하면 한참 후에 '보류'로 표시됩니다.
관련된 정보를 구글에서 검색해보면 비슷한 경우를 겪은 블로거들이 많이 보였습니다. 그런데 공통적으로 대부분 티스토리 사용자들이라는 점이 있습니다. 이들이 내놓은 해결 방법은 어이없게도 사이트 URL을 숫자가 아닌 문자로 구성하게 설정하면 해결된다는 내용이 대부분이었죠. 물론 저에겐 전혀 해당되지 않는 이야기입니다. 그리고 URL이 숫자던 문자던 아무리 바보같은 검색엔진이라도 당연히 크롤링에 문제가 없어야 정상입니다.
제 사이트에는 필요한 기본적인 HTML 코드는 다들 들어있지요. 없는 자료라고 해봤자 description 같은 정보와 open graph, social 관련 정보들입니다.
만약 이게 없어서 네이버가 크롤링 하지 않는다는 것을 과연 이해해야 할까요? 전혀 아닙니다. 이 정보들은 부수적인 정보입니다. HTML 문서에서 중요한 것은 제목과 body 안의 내용들입니다. 이 내용으로도 검색엔진이 필요한 정보를 얻기에는 충분합니다.
하지만 국내 트래픽의 절반은 네이버에서 오는 만큼 어떻게든 네이버 크롤러가 일을 하게 만들기 위한 노력을 해볼 예정입니다. description을 추가해보고 안 되면 X 표시가 되어있는 다른 정보들도 채워봐야겠지요. 그런데 그래도 안 되면 무엇을 해야 할까요?
구글은 오늘도 열심히 인덱싱을 하고 있습니다. 네이버도 일 좀 했으면 좋겠습니다.
이 글은 "한없이 가벼운 네비어 검색엔진 그 이후" 편으로 이어집니다.
'기타' 카테고리의 다른 글
보안을 버리고 기능을 얻는다는 것? (908) | 2020.04.09 |
---|---|
트위터 맥 앱, 이제는 쓸 만 한가 (0) | 2020.02.25 |
프로그래머스 개발자 설문조사 2020을 본 감상 (0) | 2020.02.24 |
유튜브는 짧은 영상에 대한 배려가 필요하다 (604) | 2019.07.06 |
포스트 계획 (373) | 2019.02.06 |
댓글