Meresci: Lựa chọn nguồn tài nguyên và công cụ tìm kiếm

MỤC LỤC

Meresci > Phương pháp tìm kiếm tài liệu tham khảo khoa học > Lựa chọn nguồn tài nguyên và công cụ tìm kiếm > Các bộ máy tìm kiếm

Giới thiệu giáo trình

Tác giả

Kiểm tra đầu vào

Phần 1. Các bước triển khai một đề tài nghiên cứu khoa học

Phần 2. Phương pháp tìm kiếm tài liệu tham khảo khoa học

Phần 3. Khai thác thông tin từ tài liệu khoa học

Phần 4. Phương pháp viết tài liệu khoa học

Phần 5. Kĩ thuật soạn thảo tài liệu khoa học

Kiểm tra đầu ra

Phản hồi kết quả

Thư mục

Phần 2. Phương pháp tìm kiếm tài liệu tham khảo khoa học

Mở đầu
Xác định đề tài nghiên cứu
Lựa chọn nguồn tài nguyên và công cụ tìm kiếm
Tìm kiếm và chọn lọc kết quả

Lựa chọn nguồn tài nguyên và công cụ tìm kiếm

Các bộ máy tìm kiếm

Các bộ máy tìm kiếm (search engine/moteur de recherche) ra đời từ giữa những năm 1990, với chức năng tìm kiếm khác hẳn các danh bạ mạng: thay vì tìm kiếm các website như danh bạ mạng, các bộ máy tìm kiếm lại sưu tập các trang web, đọc toàn bộ nội dung của từng trang và lưu vào chỉ mục. Người dùng mạng chỉ cần gõ từ khoá cần tìm và bộ máy sẽ tìm trong toàn bộ các nội dung đó.

Phương thức tìm kiếm

Các bộ máy tìm kiếm tìm kiếm các thông tin trên Mạng bằng cách:

sử dụng một chương trình gọi là robot (hay crawler, spider) tự động lướt khắp hệ thống Mạng toàn cầu thông qua các siêu liên kết (hyperlink/lien hypertexte) có trong mỗi trang web và sao chép toàn bộ nội dung (địa chỉ, tiêu đề, siêu dữ liệu metadata/metadonnée, các đoạn văn bản, v.v.) của những trang web mà nó đọc được;
lập chỉ mục các trang web với tất cả những thông tin mà các robot đã sao chép được sau mỗi vòng hành trình qua khắp hệ thống Mạng;
đưa chỉ mục lên Mạng, cho phép người dùng mạng tra cứu chỉ mục này thông qua một giao diện web, với cách thức trình bày và các chức năng tìm kiếm khác nhau, tuỳ mỗi bộ máy.

Nếu tưởng tượng Mạng toàn cầu là một thư viện khổng lồ, với mỗi website là một cuốn sách, mỗi trang web là một trang sách, thì:

các danh bạ mạng giúp tìm đến được từng cuốn sách (với tiêu đề, tác giả, nhà xuất bản, năm xuất bản,...);
các bộ máy tìm kiếm giúp tìm được đến từng trang sách, với từng câu, từng chữ, từng dòng thông tin, từng dấu chấm dấu phẩy trong mỗi trang, kể cả trang bìa, cũng như tất cả các yếu tố đi kèm như hình ảnh, tập tin, siêu liên kết,...

Với các bộ máy tìm kiếm, có thể:

tìm những thông tin chính xác: như thông tin liên lạc của một cá nhân, tổ chức, hoặc chi tiết liên quan đến một sản phẩm nào đó;
tìm những tài liệu chuyên biệt, đặc thù: như các công ước quốc tế, các văn bản nhà nước;
tìm những website mới xuất hiện trên Mạng: với vòng quay tương đối nhanh, các robot có thể tiếp cận các trang web mới hoặc quay lại cập nhật các trang web đã lưu chỉ mục trong vòng vài tuần lễ;
kết hợp các công thức tìm kiếm đa dạng, với các từ khoá, thuật ngữ, thuật toán khác nhau theo khả năng đáp ứng và công nghệ phát triển của từng bộ máy.

Tuy nhiên, có một điểm cần lưu ý khi sử dụng các bộ máy tìm kiếm, đó là các trang được đưa ra trong kết quả tìm kiếm không phải là trang hiện hữu trên Mạng, mà là trang được lưu trong chỉ mục của bộ máy tìm kiếm.

Chỉ khi nhấn vào siêu liên kết thì mới truy cập vào đúng trang hiện hữu.
Khi nội dung trang được mở ra không hoàn toàn giống với trang giới thiệu trong kết quả, điều đó có nghĩa là nội dung trang này đã được sửa mà robot của bộ máy tìm kiếm chưa kịp quay lại để cập nhật.
Khi mở trang được giới thiệu trong kết quả tìm kiếm mà xuất hiện lỗi "Error 404. Page not found", điều đó có nghĩa là trang này đã bị xoá, không còn tồn tại trên Mạng, mà bộ máy tìm kiếm chưa kịp cập nhật hoặc xoá bỏ khỏi chỉ mục.

Các vấn đề kĩ thuật

Có một số bộ máy tìm kiếm phát triển thuật toán tra cứu theo một công nghệ đặc biệt: thay vì tìm kiếm theo từ chính xác trong toàn bộ chỉ mục, người dùng chỉ cần đặt một câu hỏi như trong ngôn ngữ tự nhiên, bộ máy sẽ phân tích nội dung câu hỏi để tìm các thông tin trả lời (vẫn trong các trang đã lưu chỉ mục) và đưa ra kết quả.

Mặc dù có phạm vi bao phủ rất rộng, nhưng các bộ máy tìm kiếm cũng chỉ thu thập và lưu chỉ mục được một phần rất nhỏ của toàn bộ thông tin hiện hữu trên Mạng toàn cầu, đặc biệt là hoạt động kém hiệu quả với các trang thuộc "mạng ẩn".

Khái niệm "mạng ẩn" (web invisible) hay "mạng tầng sâu" (deep web/web profonde) dùng để chỉ những website sử dụng kĩ thuật tạo các trang động (dynamic page/page dynamique), và chỉ truy xuất được thông tin khi gửi yêu cầu thông qua một biểu mẫu (form/formulaire) truy cập cơ sở dữ liệu.
Mạng ẩn hay mạng tầng sâu bao gồm các cơ sở dữ liệu (các bộ máy tìm kiếm không thể tự điền thông tin vào biểu mẫu để truy xuất thông tin), các website đòi hỏi có tài khoản sử dụng và đăng nhập trước khi truy xuất thông tin, các website mà người quản trị ngăn chặn việc truy cập của các robot,...
Dung lượng của mạng ẩn hay mạng tầng sâu được đánh giá là lớn gấp hàng trăm lần dung lượng phần Mạng được các bộ máy tìm kiếm lưu chỉ mục (nhiều người gọi là "mạng rõ" - visible web/web visible hay "mạng tầng mặt" - surface web/web surfacique).

Ưu điểm và nhược điểm của các bộ máy tìm kiếm

Có thể rút ra những đặc điểm chính của các bộ máy tìm kiếm như sau:

là công cụ tự động: kết quả tìm kiếm của các robot tự động lướt khắp Mạng toàn cầu thông qua các siêu liên kết;
sắp xếp tự động: toàn bộ thông tin sao chép được của các robot được tự động lưu vào chỉ mục, với các trường thông tin đã lập trình sẵn;
giới thiệu từng trang: tìm kiếm trong toàn bộ nội dung các trang web đã lưu chỉ mục;
danh mục không hoàn chỉnh, không cập nhật: danh sách các website và trang web được lưu chỉ mục chỉ chiếm một phần rất nhỏ dung lượng Mạng toàn cầu, và thời gian cập nhật còn chậm (nhất là với các trang có ít siêu liên kết hướng vào);
tìm kiếm trên từ chính xác: các kết quả được đưa ra có chính xác các từ được sử dụng trong công thức tìm kiếm.

Từ đó, tạm thời rút ra các nhận xét về ưu nhược điểm của các bộ máy tìm kiếm:

Ưu điểm

Nhược điểm

Rất nhiều thông tin

Các bộ máy tìm kiếm có khả năng cung cấp một lượng thông tin rất khổng lồ.

Thông tin chính xác

Các bộ máy tìm kiếm cho phép tiếp cận được những thông tin rất chính xác, cụ thể.

Phân hạng kết quả

Thông thường các bộ máy tìm kiếm đều có cơ chế xếp hạng kết quả tìm kiếm theo mức độ phù hợp giảm dần. Dù sự xếp hạng là tự động, máy móc, nhưng hầu hết các thông tin phù hợp đều được tìm thấy trong những trang kết quả đầu tiên.

Cho phép kết hợp nhiều công thức tìm kiếm

Hầu hết các bộ máy tìm kiếm đều cung cấp nhiều khả năng tìm kiếm và phối hợp các công thức tìm kiếm khác nhau.

Kiểm soát thông tin ít nhiều kém hiệu quả

Lượng dữ liệu khổng lồ lưu trữ trong chỉ mục dẫn đến sự hạn chế trong kiểm soát thông tin. Có rất nhiều địa chỉ cung cấp trong kết quả tìm kiếm không còn hoạt động.

Kĩ thuật tra cứu phức tạp

Giao diện và kĩ thuật tra cứu thay đổi tuỳ theo bộ máy tìm kiếm, dù vẫn có một số điểm tương đồng. Người mới làm quen với máy tính hay Internet cần không ít thời gian để có thể làm chủ được thao tác.

Kết quả đôi khi không liên quan hoặc thường bị "nhiễu"

Do toàn bộ quá trình sưu tập thông tin và lập chỉ mục đều tự động, và việc tìm kiếm được thực hiện trên toàn bộ thông tin của từng trang, có không ít kết quả không liên quan đến chủ đề tìm kiếm vẫn được đưa vào.

Bài tập tự kiểm tra

Giới thiệu một số bộ máy tìm kiếm

Ask Jeeves: cơ chế tìm kiếm theo ngôn ngữ tự nhiên, có thể cho phép lưu trữ đến 1000 kết quả tìm kiếm, sắp xếp và ghi chú trong hồ sơ cá nhân. Có nhiều kiểu giao diện khác nhau cho người dùng lựa chọn, và các phiên bản tiếng Nhật, Tây Ban Nha, Đức, Pháp, Hà Lan, Ý.
Brainboost: tìm kiếm theo ngôn ngữ tự nhiên, kết quả được trích từ các trang web có chứa thông tin trả lời cho câu hỏi được đặt ra.
Exalead: hai giao diện Exalead tiếng Pháp và Exalead tiếng Anh. Có nhiều chức năng tìm kiếm nâng cao giúp giới hạn phạm vi tìm kiếm. Kết quả được giới thiệu kèm với hình ảnh thu nhỏ của trang web và những gợi ý giúp tìm kiếm kĩ hơn bằng các thuật ngữ, khái niệm lân cận và chủ đề liên quan.
Factbites: cung cấp thông tin bách khoa, với những trích đoạn hoàn chỉnh và có nghĩa về vấn đề đang tìm kiếm, thu thập được từ các trang web khác nhau, gợi ý các chủ đề lân cận, có liên quan cũng như danh sách các chủ đề được tìm kiếm nhiều nhất. Giao diện duy nhất bằng tiếng Anh.
Google: bộ máy tìm kiếm được sử dụng nhiều nhất hiện nay, sưu tập được một lượng thông tin vô cùng lớn trên Mạng, bằng hầu như tất cả các thứ ngôn ngữ có tồn tại trên Internet. Có nhiều tính năng tìm kiếm nâng cao khác nhau, giúp dễ dàng giới hạn phạm vi tìm kiếm. Có giao diện bằng nhiều thứ tiếng, kể cả tiếng Việt.

Tiêu chí xếp hạng PageRank do Google định nghĩa dựa vào cách tính toán số siêu liên kết hướng vào (tăng điểm) và hướng ra (giảm điểm) của một website. Do đó, PageRank cao chỉ đồng nghĩa với mức độ phổ biến của một trang web hay website chứ không hoàn toàn đồng nghĩa với chất lượng thông tin của trang web hay website đó.
Kết quả tìm kiếm được trình bày theo kiểu trích đoạn các phần nội dung có chứa chính xác từ cần tìm kiếm, đôi khi toàn bộ các đoạn trích không liên quan gì đến nhau.
Kết quả của một lượt tìm kiếm thường quá nhiều, đến mức khó hoặc không thể xử lí nổi.

Google Scholar: phiên bản thử nghiệm, giúp tìm kiếm các thông tin thuần tuý khoa học và học thuật (sách, tạp chí, luận văn, luận án, bài giảng,...), thu thập từ các trường đại học, viện nghiên cứu, phòng thí nghiệm, nhà xuất bản khoa học, các chuyên gia, các tổ chức, v.v.
Scirus: tìm kiếm các tài liệu có tính học thuật trong các ngành khoa học (giới thiệu và/hoặc phổ biến qua Science Direct, PubMed, ArXiv, BioMed Central, v.v.), hiệu quả tốt hơn Google Scholar về nhiều mặt, với nhiều tính năng tìm kiếm nâng cao và giới hạn phạm vi tìm kiếm.
Yahoo!: bộ máy tìm kiếm tương tự như Google, cũng khá phổ biến và hiệu quả, có nhiều chức năng tìm kiếm nâng cao, hạn chế phạm vi tìm kiếm, v.v.

Bài tập tự kiểm tra

Giáo trình điện tử Phương pháp nghiên cứu tài liệu trong nghiên cứu khoa học

MỤC LỤC

Phần 2. Phương pháp tìm kiếm tài liệu tham khảo khoa học

Lựa chọn nguồn tài nguyên và công cụ tìm kiếm

Các bộ máy tìm kiếm

Phương thức tìm kiếm

Các vấn đề kĩ thuật

Ưu điểm và nhược điểm của các bộ máy tìm kiếm

Giới thiệu một số bộ máy tìm kiếm

Giáo trình điện tử
Phương pháp nghiên cứu tài liệu
trong nghiên cứu khoa học