首先請先至Nutch官網下載「nutch-0.9.tar.gz」~
安裝步驟
請先解壓縮「nutch-0.9.tar.gz」
引用:
tar zxvf nutch-0.9.tar.gz


然後建立一個爬行器的爬行清單檔案~ 這裡以筆者的部落格為範例:
引用:
cd nutch-0.9
echo http://blog.ring.idv.tw/index.ser > urls


修改「conf/crawl-urlfilter.txt」中的「MY.DOMAIN.NAME」改成下述:
引用:
+^http://([a-z0-9]*.)*ring.idv.tw/


修改「conf/nutch-site.xml」,加上一個「http.agent.name」的參數值:
<property>  
<name>http.agent.name</name>  
<value>crawler</value>  
</property>  


啟動Crawler開始抓網頁~ 預設啟動十個Thread來爬~
引用:
bin/nutch crawl urls -dir ring -depth 5 -topN 50 &


抓完網頁的相關資料並建立索引之後~ 就要開始部署搜尋引擎了~

請將「nutch-0.9.war」搬移至你JBossTomcat部署的資料夾下
引用:
mkdir nutch.war
mv nutch-0.9.war nutch.war
unzip nutch-0.9.war


修改「nutch.war/WEB-INF/classes/nutch-site.xml」,為它加上要搜尋的資料夾,也就是我們剛剛透過Crawler所建立的那些索引檔~
<property>  
<name>searcher.dir</name>  
<value>/usr/local/data/nutch-0.9/ring</value>  
</property>  


修改「server.xml」,如果你的環境是JBoss 4.2.2GA的話~ 請參考下述做法:
引用:
cd JBoss-4.2.2.GA/server/default/deploy/jboss-web.deployer
vi server.xml


找到「<Connector port="8080"」這一行,為它加上「URIEncoding="UTF-8" useBodyEncodingForURI="true"」即可~ 避免利用Get傳送方式導致編碼錯誤~

最後啟動你的JBoss來玩嚕~

參考資源
Nutch 笔记(一):Quick Start
Nutch 0.9 安裝心得(小攻略)
相關資源
Introduction to Nutch, Part 1: Crawling
Introduction to Nutch, Part 2: Searching
Nutch 笔记(二):Craw more urls and Recrawl
Nutch 初体验之二
快乐渡过每一天,减肥坚持每一天