Monday, January 19, 2009

index server

Google จะมี ระบบการจัดเก็บข้อมูลเอกสารที่ถูก copy มา (index server) ซึ่งเป็นระบบการจัดเก็บข้อมูลที่ได้รับมาจาก googlebots อีกที โดยข้อมูลที่นำมาทำการจัดเก็บนั้น ส่วนใหญ่แล้วจะเป็นเอกสารหน้าเพจ (HTML Document) และไฟล์เอกสารรูปภาพต่างๆ (Image Document) จะเก็บข้อมูลทั้งหน้าเพจ อาจเรียกได้ว่าทุกภาพ ทุกตัวอักษร จนกลายเป็นสำเนาเอกสาร วิธีการนี้เรียกสั้นๆได้ว่า “การ Index หน้าเพจ” ระบบนี้จะอำนวยความสะดวกสำหรับขั้นตอนต่อไปในการให้เอกสารที่มีอยู่ในระบบการค้นหานั้น แสดงผลออกมาให้ตรงกับเอกสารปัจจุบันให้มากที่สุด

การ index ข้อมูลทั้งหมดนั้น ทางระบบการประมวลผลในการจัดอันดับการค้นหา หรืออัลกอริมึม จะทำการตัดคำสิ้นเปลือง และคำหยุด (common words หรือ stop words) ออกไปจากหน้าเอกสารนั้นๆทุกครั้งที่มีการประมวลผล ( เช่น the,is,on,on,of,a,it) เพื่อลดอัตราการสิ้นเปลืองในการประมวลผลแต่ละครั้งให้เหลือน้อยที่สุด

common words หรือ stop words เป็นคำค้นโดยทั่วไป ที่ไม่สามารถจำกัดขอบเขตของการค้นหาได้และเพื่อเป็นการป้องกันให้ประสิทธิภาพของ index server ลดลง จึงไม่สามารถค้นหาประเภทนี้ได้ เนื่องจากคำประเภทนี้เป็นคำกล่าวที่สามารถพบได้กับเอกสารโดยทั่วไปที่มีอยู่บนอินเตอร์เน็ตเป็นจำนวนมาก

No comments:

Post a Comment