Google จะมี ระบบการจัดเก็บข้อมูลเอกสารที่ถูก copy มา (index server) ซึ่งเป็นระบบการจัดเก็บข้อมูลที่ได้รับมาจาก googlebots อีกที โดยข้อมูลที่นำมาทำการจัดเก็บนั้น ส่วนใหญ่แล้วจะเป็นเอกสารหน้าเพจ (HTML Document) และไฟล์เอกสารรูปภาพต่างๆ (Image Document) จะเก็บข้อมูลทั้งหน้าเพจ อาจเรียกได้ว่าทุกภาพ ทุกตัวอักษร จนกลายเป็นสำเนาเอกสาร วิธีการนี้เรียกสั้นๆได้ว่า “การ Index หน้าเพจ” ระบบนี้จะอำนวยความสะดวกสำหรับขั้นตอนต่อไปในการให้เอกสารที่มีอยู่ในระบบการค้นหานั้น แสดงผลออกมาให้ตรงกับเอกสารปัจจุบันให้มากที่สุด
การ index ข้อมูลทั้งหมดนั้น ทางระบบการประมวลผลในการจัดอันดับการค้นหา หรืออัลกอริมึม จะทำการตัดคำสิ้นเปลือง และคำหยุด (common words หรือ stop words) ออกไปจากหน้าเอกสารนั้นๆทุกครั้งที่มีการประมวลผล ( เช่น the,is,on,on,of,a,it) เพื่อลดอัตราการสิ้นเปลืองในการประมวลผลแต่ละครั้งให้เหลือน้อยที่สุด
common words หรือ stop words เป็นคำค้นโดยทั่วไป ที่ไม่สามารถจำกัดขอบเขตของการค้นหาได้และเพื่อเป็นการป้องกันให้ประสิทธิภาพของ index server ลดลง จึงไม่สามารถค้นหาประเภทนี้ได้ เนื่องจากคำประเภทนี้เป็นคำกล่าวที่สามารถพบได้กับเอกสารโดยทั่วไปที่มีอยู่บนอินเตอร์เน็ตเป็นจำนวนมาก
Subscribe to:
Post Comments (Atom)

No comments:
Post a Comment