jaehyun's blog: Apache Nutch - 오픈소스 웹 검색 엔진

2007년 12월 6일 목요일

Apache Nutch - 오픈소스 웹 검색 엔진

http://lucene.apache.org/nutch/
Nutch는 오픈소스 웹 검색 소프트웨어입니다. Lucene을 기반으로 crawler, 링크 그래프 데이터페이스, HTML파서 등과 같은 웹에 특화된 기능들이 추가되었습니다.

http://wiki.apache.org/nutch/
위키에서 많은 정보를 얻을 수 있습니다.

http://peterpuwang.googlepages.com/NutchGuideForDummies.htm
실행방법:
1. cygwin을 설치 합니다. (http://www.cygwin.com/)
2. 환경변수 JAVA_HOME을 등록합니다.
export JAVA_HOME="/cygdrive/d/tools/jdk1.6.0_02/"
3. 다운받은 nutch-0.9디렉토리에서 크롤링 대상을 준비합니다.
$ mkdir urls
$ vi urls/cristian.txt하여 아래와 같은 크롤링 대상 사이트를 저장합니다.
http://www.churchinthecity.org
http://www.btgh.org/

$ vi conf/crawl-urlfilter.txt 를 편집하여 크롤링 대상을 지정합니다.
+^http://([a-z0-9]*\.)*apache.org/
+^http://([a-z0-9]*\.)*churchinthecity.org/
+^http://([a-z0-9]*\.)*btgh.org/

$ vi conf/nutch-site.xml 를 편집하여 기본 설정을 합니다.

4. 크롤러를 실행합니다.
$ bin/nutch crawl urls -dir crawl -depth 3 -topN 50

5. nutch-0.9.war를 톰켓의 webapps에 복사(deploy) 하여 nutch-0.9 웹 서치엔진을 구동합니다.

6. WEB-INF/classes/nutch-site.xml 를 편집하여 크롤링 된 소스 디렉토리를 지정합니다.

7. 톰켓을 재시작하면, 크롤링된 저장소를 기반으로 하여 아래와 같이 Nutch 웹 검색엔진을 사용 할 수 있습니다.

댓글 1개:

shkmanse2008년 5월 1일 PM 9:56
제 블로그에 담아갈께요^^
답글삭제
답글

댓글 추가