| 86 번 글의 답장글: Re: 검색엔진 접근을 막는 이유는.. |
| 글쓴이: 산이
[홈페이지]
|
글쓴날: 2001년 10월 08일 09:43:07 월(오전) |
조회: 1576 |
[궁금한눔]님이
남기신 글:
>안녕하세요?
>
>여기 첫페이지 보니, 검색 엔진 접근을 막아놓았다고
하는군요.
>
>왜 접근을 막는거죠?
>
>검색엔진 보고 사람들이 들어올수도 있잖아요.
>
>로봇들의 접근을 막는 이유가 궁금해져서요.
>
>그런데, 사람이 접근하는지 로봇이 접근하는지 어떻게
알아요??
>
>너무 초본가.. ^^;;
========================================
안녕하세요
허접한 운영자입니다.
...
이유는 간단합니다.
1. 접근을 막는 이유 - 시스템부하문제
발생
대부분의 로봇들은 어느 특정 URL하나만 캐싱해가는것이아니라
싸이트 전체를 캐싱해가는것이
보통입니다.
자료가 없는 곳이면 상관없겠지만
자료가 꽤 상당히 많고 비교적 분주한 싸이트라면
문제가 되겠지요.(이곳은
그리 분주하지도 많은 자료는 없음)
때문에 그많은 URL을 하나씩 자동으로 캐싱해가는동안에
다른 일반 유저들이 들어온다면 당연히 느려지는 현상이
있습니다.
웹로그를 들여다보면 정말 무지막지하게 긁어갑니다.
이렇게 긁어간 자료는 크게 두가지로 나누어볼수 있는데
하나는 일반 유저가 teleport(?)/wget 같은 툴을 이용해서 얻은
자료는
자신의 HDD에 남게 됩니다.
또하는 전문 검색로봇들이 긁어가는 유형인데
이는 많이 들어본 엠파스로봇같은
것들이니다.
이런 로봇들이 긁어간 자료는 자신의 검색엔진에
캐싱해두었다가
사용자가 검색엔진에서 검색하면 실제로 수많은 싸이트를
검색하는게 아니라 캐시에서 검색하기 때문에 빠릅니다.
그런데 검색엔진이 너무 오랜된 자료를 가지고있으면
안되겠지요.
검색엔지에서 검색해서 해당 URL로 이동했는데 "없는
내용"이
나오면 대부분이 이런 경우입니다.
그래서 로봇들을 막는 겁니다.
이해가 되셨는지요?
2. 로봇인지 구별하는 방법.
웹로그에 의존할 수 밖에 없습니다.
대부분의 웹클라이언트(MSIE/네스케이프...)는
User-Agent 라는
Header를 포함해서 서버에 요청합니다.
이 User-Agent가 각 웹클라이언트들을
구별하는 key가 됩니다.
웹로그를 자세히 들여다보면 연달아 계속(틈을 주지않고) URL을
요청하는 User-Agent가 99% 로봇들입니다.
또는 User-Agent에 "robot"문자열이
들어간경우도 해당됩니다.
...
마지막 답변은
웹로그에서 User-Agent와 틈을 주지않고 계속 URL을
요청했을 경우가 로봇들입니.
사람이 URL을 요청할경우는 약간의 Delay가 있죠.
인간이다보니깐
URL요청이 기계보다 당연히 느리죠...
이상입니다.
*PS:
간단하게 답변한다는것이
장문이 되어버렸군요.
|
이전글 : 검색엔진 접근을 막는 이유는..
다음글 : 대구에서 리눅스 같이 공부하실분 구합니다.
|
from 211.35.159.131
JS(Redhands)Board 0.4 +@
|