Trang chủ Liên hệ Sơ đồ English
Trang chủ Dịch vụ Tin tức Kiến thức Tư vấn 3Cdotcom

Đánh giá của bạn về nội dung kiến thức chúng tôi cung cấp?

Internet cơ bản
(Thứ Sáu, 20/06/2008-9:38 AM)
Cơ bản về search engines
1. Search engine là gì

Mụch đích cuả phần này là trình bày kiến trúc căn bản cuả các search engine. Có nắm bắt được nguyên lý hoạt động cuả các search engine thì việc xử dụng sẽ có nhiều hiệu quả và nhanh chóng hơn.

1.1  Khái quát về search engine

Search engine (tạm dịch - máy truy tìm) -nguyên thuỷ-  là một công cụ phần mềm nhằm tìm ra các trang trên mạng dưạ vào các thông tin mà nó có. Dữ lượng thông tin cuả search engine thực chất là một loại cở sở dữ liệu (database) cực lớn. Công cụ này tìm các tài liệu dưạ trên các từ khoá (keyword) và trả về một danh mục cuả các trang có chưá từ khoá.

1.1.1 Spider

Cơ sở dữ liệu cuả các search engine được cập nhật hoá bởi các chương trình đặc biệt thường gọi là "robot", "spider" hay "Webcrawler". Các chương trình này sẽ tự động dò tìm và phân tích từ những trang có sẵn trong cơ sở dữ liệu để kiếm ra các nối kết (links) từ các trang và trở lại bổ xung dữ liệu cho các search engine sau khi phân tích. Các chương trình này cũng sẽ báo cáo về các liên kết đã bị đào thải. Từ khoá mà bạn bỏ vào là để cho search engine kiếm trong bảng chỉ số cuả nó. Kết quả đúng nhất sẽ được xếp ở thứ tự đầu tiên. Trang nổi tiếng nhất là dùng nguyên tắc này là  http://www.google.com/ -

1.1.2 Meta-search engine

Trên đây là các loại search engine "nguyên thuỷ". Ngày nay,  người ta còn lợi dụng các search engine sẵn có để thiết kế thành một loại search engine mới còn gọi là meta-search engine (tạm dịch máy truy tìm ảo). Nguyên tắc cuả loại search engine này rất đơn giản. Nó không có cơ sở dữ liệu. Khi hoạt động thì nó sẽ gởi từ khoá đến các search engine khác Một cách đồng loạt và nhận về tất cả các kết quả tìm được (Ui chao! sao giống ... mấy con kí sinh trùng quá !). Và nhiệm vụ cuả nó chỉ là phân tích hay sắp xếp lại các tài liệu tìm được cho thân chủ. Cái hay cuả loại meta-search engine  là lợi dụng cơ sở dữ liệu cuả các search engine nguyên thuỷ để tìm ra nhiều kết quả hơn. Nhưng vì loại meta-search engine này chỉ tồn tại nếu có các search engine nguyên thuỷ nên gọi là meta- (tiếp đầu ngữ meta thường dịch là 'siêu hình' hay 'ảo'). Điển hình là http://www.metacrawler.com/ -

Ngoài hai loại search engine này ngưòi ta còn đề cập đến.

1.1.3 Thư mục đối tượng (Subject Directories)

Còn gọi là máy truy tìm theo phân lớp (hierarchical search engine)  - search engine kiểu này sẽ phân lớp sẵn các đối tượng vào các thư mục và người dùng sẽ lưạ rẻ nhánh từ từ cho đến khi tìm ra các trang WEB mà mình muốn. Kiểu này dể cho người tuy cập nhưng có điểm yếu là nó không thể bao gồm hết mọi chủ đề mà mình muốn kiếm ra. Hơn nưã, sự phân loại đôi khi không được đầy đủ và chính xác. (Ngoài ra, nó còn chứa cả đống trang 'shopping' chỉ phù hợp cho ... phái nữ hì hì). Điển hình cuả loại này là http://www.yahoo.com/ - Chúng ta sẽ không bàn sâu loại thư mục đối tượng.

1.1.4 Các cơ sở dữ liệu đặc biệt

Đặc điểm cuả loại này là dữ liệu kiếm ra không thực sự có được điạ chỉ trang WEB cụ thể qua các search engine; dữ liệu này tồn tại trong các cơ sở dữ liệu cuả một computer ở đâu đó mà các trang WEB được phép sử dụng. Đặc biệt, các trang WEB nghiên cứu cuả các ĐH hay học viện như là http://lii.org/ - ,  http://www.academicinfo.net/ - , và http://infomine.ucr.edu/ - (Xin nhớ cho đây là cơ sở dữ liệu cuả các cơ quan nghiên cứu đó nha!)

Ngoài ra, lợi dụng google hay yahoo ta cũng có thể tìm ra các tài liệu trong các cơ sở dữ liệu bằng cách thêm vào từ khoá chữ: "database" - Nghiã là: thay vì dùng từ khoá "helium laser" thì viết thành "helium laser database".

Các trang WEB mô tả như trên gọi là invisible WEB (tạm dịch 'vô kiến WEB' )

1.2 Đặc điểm và phân loại search engine:

1.2.1  Các đặc điểm:

Như vậy, tuỳ theo keyword mà có thể tìm số trang liên hệ ít hay nhiều. Trong nhiều trường hợp, số trang tìm ra có đến hàng triệu trang thì vấn đề đặt ra cho một search engine la làm sao xếp thứ hạng các trang để người dùng có nhiều cơ hội tìm ra dữ liệu mình muốn nhất?

Cách thức xếp thứ hạng (ranking)

Hầu hết các search engine xếp hạng ưu tiên theo kiểu mà người design nghĩ rằng trang tìm thấy là phù hợp với từ khoá và các điều kiện cho thêm cuả người dùng máy (chẳng hạn như máy bên Pháp thì trang tiếng Pháp sẽ có ưu tiên hơn và tùy theo cách cho từ khoá đủ "hẹp" trong thị trường tìm kiếm). Mặc dù vậy, khi chưa quen dùng chúng ta sẽ "tìm" được cả đống những cái liên kết (links) không vưà ý và nhiều lúc ...chúng hoàn toàn vô dụng. Lý do chính có thể là do người dùng đã không hiểu rõ kĩ thuật tìm kiếm cuả máy và ngược lại cũng có thể là do kĩ thuật hiện tại cuả máy truy tìm chưa đủ sức để "hiểu" ngưòi dùng muốn gì! (bởi vậy mới phải tả rõ hơn cho 'nàng' search engine hiểu rằng 'chàng' muốn gì)

Đa số cách xếp thứ hạng là dựa vào "số lần xuất hiện" (còn gọi là tần xuất) cuả từ khoá trong 1 trang. Nghiã là trang có xuất hiện từ khoá nhiều nhất sẽ được hiển thị trước tiên khi search engine trả lời. (Người thiết kế search engine cho rằng tài liệu nào lập lại nhiều lần cái từ khoá thì chắc nó sẽ hữu dụng nên được xếp ngay ở hàng đầu tiên cuả trang trả lời!).

Bởi vậy nếu bạn tra tìm trang WEB mà lại dùng từ khoá chung chung hoặc từ có nhiều nghiã thì hầu như bạn sẽ không tìm được những trang chưá cái mình muốn. Trong trường hợp này hoặc bạn phải tìm bộ từ khoá khác hơn/chi tiết hơn hoặc dùng những kĩ thuật hổ trợ từ search engine mà sẽ đề cập trong các phần sau cuả bài viết.

Có một số search engine ngoài việc xác định tần xuất cuả từ khoá chúng còn dựa vào khả năng xuất hiện sớm cuả từ khoá này trong một hồ sơ như là tìm thấy trong tưạ đề (title), trong đầu trang (header),... Hoặc giả, họ xác định sự quan trọng cuả trang WEB bằng cách ... đếm số trang có liên kết từ các trang khác tới nó (Một trang WEB có hay có quan trọng thì tui mới cho 'link' và 'reference' trên trang WEB cuả tui chớ sao !)

Cũng vì lí do này, đa số các search engine lớn đều có thêm chức năng là "advanced" hay "advanced search" để giúp bạn tìm ra cái bạn cần dể hơn.

1.2.2 Phân loại search engine:

Phân loại theo kiến trúc hoạt động

Theo phân định cuả http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/ToolsTables.html -   thì có 3 loại công cụ tìm kiếm (search tool): các search engine tồn tại dựa trên chưong trình spider, các search engine theo thư mục đối tượng, và invisible WEB

Phân loại theo chức năng

Theo cách phân loại này thì tùy theo đối tượng tìm kiếm mà có: Kiếm địa chỉ trang WEB, kiếm điạ chỉ e-mail, hay kiếm tin tức về 1 người ( http://www.nwbuildnet.com/nwbn/fouremail.html - ) hay một tổ chức ( http://www.freeality.com/findrev.htm - ), kiếm việc làm, kiếm bản đồ ( http://www.mapquest.com/ - ) ...

Chúng ta sẽ không đề cập sâu hơn trong phần này. (xem như là bài tập vậy mà ... Có muốn đi tìm người yêu cũ thì tự lo kiếm lấy chứ sao nhờ tui!).

1.2.3 Các Search Engine nên biết:

Trong bài kì tới chúng ta sẽ khảo sát sâu hơn về các chức năng nâng cao và các kĩ năng cần thiết để tận dụng các search engine.

Theo clearly


In bài này Gửi bài viết
    [ Các bài mới ]
    [ Các bài đã đăng ]
    Thông tin mới

    Công ty Dịch vụ Trực tuyến 3C Dotcom.
    3C Dotcom Online Services Company Limited.
    Tầng 3 - Số 18 - Đường Nguyễn Phong Sắc kéo dài - Quận Cầu Giấy - TP Hà Nội.
    Điện thoại : (04) 281.3456  Fax: (04) 281.3481 E-mail: info@3cdotcom.vn
    Chịu trách nhiệm chính: Ông Lê Hoài Nam – Giám đốc 3Csoft.
    ® Ghi rõ nguồn "www.3cdotcom.vn" khi bạn phát hành lại thông tin từ website này.