Giới
thiệu giáo
trình
Tác
giả
Kiểm
tra đầu vào
Phần
1. Các bước triển khai
một đề tài nghiên cứu khoa học
Phần 2. Phương
pháp
tìm kiếm tài liệu tham khảo khoa học
Phần
3. Khai thác
thông tin từ tài liệu khoa học
Phần
4. Phương
pháp viết tài liệu khoa học
Phần
5. Kĩ thuật soạn thảo
tài liệu khoa học
Kiểm
tra đầu ra
Phản
hồi kết quả
Thư mục |
Phần
2. Phương pháp tìm kiếm tài liệu tham
khảo khoa học
Lựa
chọn nguồn tài nguyên và công
cụ tìm kiếm
Các bộ máy
tìm kiếm
Các bộ máy
tìm kiếm (search
engine/moteur
de recherche)
ra đời từ giữa những năm 1990, với chức năng tìm kiếm
khác hẳn các danh bạ mạng: thay vì
tìm kiếm
các website
như danh bạ mạng, các bộ máy tìm kiếm
lại sưu tập các trang web,
đọc toàn bộ nội dung của từng trang và lưu
vào chỉ
mục. Người dùng mạng chỉ cần gõ từ
khoá cần
tìm và bộ máy sẽ tìm trong
toàn bộ
các nội dung đó.
Phương thức
tìm kiếm
Các bộ máy
tìm kiếm tìm kiếm các
thông tin trên Mạng bằng cách:
- sử dụng một chương trình gọi
là robot
(hay crawler, spider) tự động
lướt khắp hệ thống Mạng toàn cầu thông qua
các siêu liên kết (hyperlink/lien hypertexte)
có trong mỗi trang web
và sao chép toàn bộ nội dung (địa chỉ,
tiêu đề, siêu dữ liệu metadata/metadonnée,
các đoạn văn bản, v.v.) của những trang web mà
nó đọc được;
- lập chỉ mục các trang web
với tất cả những thông tin mà các robot
đã
sao chép được sau mỗi vòng hành
trình qua
khắp hệ thống Mạng;
- đưa chỉ mục lên Mạng, cho
phép người dùng mạng tra cứu chỉ mục
này thông qua một giao diện web,
với cách thức trình bày và
các chức
năng tìm kiếm khác nhau, tuỳ mỗi bộ
máy.
Nếu tưởng tượng Mạng toàn cầu
là một thư viện khổng lồ, với mỗi website
là một cuốn sách, mỗi trang web là
một trang sách, thì:
- các danh bạ mạng
giúp tìm đến được từng cuốn sách
(với tiêu đề, tác giả, nhà xuất bản,
năm xuất bản,...);
- các bộ máy
tìm kiếm giúp tìm được đến từng trang sách,
với từng câu, từng chữ, từng dòng thông
tin, từng
dấu chấm dấu phẩy trong mỗi trang, kể cả trang bìa, cũng như
tất
cả các yếu tố đi kèm như hình ảnh, tập
tin,
siêu liên kết,...
Với các bộ máy
tìm kiếm, có thể:
- tìm
những thông tin chính xác:
như thông tin liên lạc của một cá
nhân, tổ
chức, hoặc chi tiết liên quan đến một sản phẩm nào
đó;
- tìm
những tài liệu chuyên biệt, đặc thù:
như các công ước quốc tế, các văn bản
nhà nước;
- tìm
những website mới xuất hiện trên
Mạng: với vòng quay tương đối nhanh,
các robot
có thể tiếp cận các trang web mới hoặc quay
lại cập nhật các trang web
đã lưu chỉ mục trong vòng vài tuần lễ;
- kết
hợp các công thức tìm kiếm đa dạng,
với các từ khoá, thuật ngữ, thuật toán
khác
nhau theo khả năng đáp ứng và công nghệ
phát
triển của từng bộ máy.
Tuy nhiên, có một điểm
cần lưu ý khi sử dụng các bộ máy
tìm kiếm, đó là các
trang được đưa ra trong kết quả
tìm kiếm không phải
là trang hiện hữu trên Mạng,
mà là trang
được lưu trong chỉ mục của bộ máy
tìm kiếm.
- Chỉ khi nhấn vào
siêu liên kết thì mới truy cập
vào đúng trang hiện hữu.
- Khi nội dung trang được mở ra
không
hoàn toàn giống với trang giới thiệu trong kết
quả, điều
đó có nghĩa là nội dung trang
này đã
được sửa mà robot
của bộ máy tìm kiếm chưa kịp quay lại để cập nhật.
- Khi mở trang được giới thiệu trong kết
quả tìm kiếm mà xuất hiện lỗi "Error 404. Page not found",
điều đó có nghĩa là trang
này đã bị
xoá, không còn tồn tại trên
Mạng, mà
bộ máy tìm kiếm chưa kịp cập nhật hoặc
xoá bỏ khỏi
chỉ mục.
Các
vấn đề kĩ thuật
Có
một số bộ máy tìm kiếm phát triển
thuật toán tra cứu theo một công nghệ đặc biệt:
thay vì tìm kiếm theo từ chính
xác trong
toàn bộ chỉ mục, người dùng chỉ cần đặt một
câu hỏi
như trong ngôn
ngữ tự nhiên,
bộ máy sẽ phân tích nội dung
câu hỏi để
tìm các thông tin trả lời (vẫn trong
các
trang đã lưu chỉ mục) và đưa ra kết quả.
Mặc
dù có phạm
vi bao phủ rất rộng, nhưng các bộ máy
tìm kiếm
cũng chỉ thu thập và lưu chỉ mục được một phần rất nhỏ của
toàn bộ thông tin hiện hữu
trên Mạng toàn cầu, đặc biệt là hoạt động kém hiệu quả với các trang thuộc "mạng ẩn".
- Khái niệm
"mạng ẩn" (web invisible) hay "mạng tầng sâu"
(deep web/web profonde)
dùng để chỉ những website
sử dụng kĩ thuật tạo các trang động
(dynamic page/page dynamique),
và chỉ truy xuất được thông tin khi gửi
yêu cầu thông qua một biểu mẫu (form/formulaire) truy
cập cơ sở dữ liệu.
- Mạng
ẩn hay mạng
tầng sâu
bao gồm các cơ sở dữ liệu (các bộ máy
tìm
kiếm không thể tự điền thông tin vào
biểu mẫu để
truy xuất thông tin), các website
đòi hỏi có tài khoản sử dụng
và đăng nhập trước khi truy xuất thông tin,
các website
mà người quản trị ngăn chặn việc truy cập của các
robot,...
- Dung lượng của mạng ẩn hay mạng tầng
sâu được đánh giá là lớn gấp hàng trăm lần
dung lượng phần Mạng được các bộ máy
tìm kiếm lưu chỉ mục (nhiều người gọi là "mạng
rõ" - visible
web/web
visible hay "mạng tầng mặt" - surface web/web surfacique).
Ưu
điểm và nhược điểm của các bộ máy
tìm kiếm
Có
thể rút ra những
đặc điểm
chính của các
bộ máy tìm kiếm như sau:
- là
công cụ tự động: kết quả tìm kiếm của
các robot
tự động lướt khắp Mạng toàn cầu thông qua
các siêu liên kết;
- sắp
xếp tự động: toàn bộ thông tin sao
chép được của các robot được tự động
lưu vào chỉ mục, với các trường thông
tin đã lập trình sẵn;
- giới
thiệu từng trang: tìm kiếm trong
toàn bộ nội dung các trang web đã
lưu chỉ mục;
- danh
mục không hoàn chỉnh, không cập nhật:
danh sách các website
và trang web
được lưu chỉ mục chỉ chiếm một phần rất nhỏ dung lượng Mạng
toàn cầu, và thời gian cập nhật còn
chậm (nhất là với các trang có ít siêu liên kết hướng vào);
- tìm
kiếm trên từ chính xác:
các kết quả được đưa ra có chính
xác
các từ được sử dụng trong công thức tìm
kiếm.
Từ
đó, tạm thời rút ra các nhận
xét về ưu nhược điểm của các bộ máy
tìm kiếm:
Ưu
điểm |
Nhược
điểm |
Rất nhiều thông tin
Các
bộ máy tìm kiếm có khả năng cung cấp
một lượng thông tin rất khổng lồ.
Thông tin chính
xác
Các
bộ
máy tìm kiếm cho phép tiếp cận được
những
thông tin rất chính xác, cụ thể.
Phân hạng kết quả
Thông
thường
các bộ máy tìm kiếm đều có
cơ chế xếp hạng
kết quả tìm kiếm theo mức độ phù hợp giảm dần.
Dù
sự xếp hạng là tự động, máy móc, nhưng
hầu hết
các thông tin phù hợp đều được
tìm thấy
trong những trang kết quả đầu tiên.
Cho phép kết hợp
nhiều công thức tìm kiếm
Hầu
hết các
bộ máy tìm kiếm đều cung cấp nhiều khả năng
tìm
kiếm và phối hợp các công thức
tìm kiếm
khác nhau.
|
Kiểm soát
thông tin ít nhiều kém hiệu quả
Lượng
dữ liệu khổng
lồ lưu trữ trong chỉ mục dẫn đến sự hạn chế trong kiểm soát
thông tin. Có rất nhiều địa chỉ cung cấp trong kết
quả
tìm kiếm không còn hoạt động.
Kĩ thuật tra cứu phức tạp
Giao
diện và
kĩ thuật tra cứu thay đổi tuỳ theo bộ máy tìm
kiếm,
dù vẫn có một số điểm tương đồng. Người mới
làm
quen với máy tính hay Internet cần
không ít
thời gian để có thể làm chủ được thao
tác.
Kết
quả đôi khi không liên quan hoặc thường
bị "nhiễu"
Do
toàn bộ
quá trình sưu tập thông tin
và lập chỉ mục
đều tự động, và việc tìm kiếm được thực hiện
trên
toàn bộ thông tin của từng trang, có
không
ít kết quả không liên quan đến chủ đề
tìm
kiếm vẫn được đưa vào.
|
Giới
thiệu một số bộ máy tìm kiếm
- Ask Jeeves:
cơ chế tìm kiếm theo ngôn ngữ tự nhiên,
có
thể cho phép lưu trữ đến 1000 kết quả tìm kiếm,
sắp xếp
và ghi chú trong hồ sơ cá
nhân. Có
nhiều kiểu giao diện khác nhau cho người dùng lựa
chọn,
và các phiên bản tiếng Nhật,
Tây Ban Nha,
Đức, Pháp, Hà Lan, Ý.
- Brainboost:
tìm kiếm theo ngôn ngữ tự nhiên, kết quả
được trích từ các trang web có
chứa thông tin trả lời cho câu hỏi được đặt ra.
- Exalead:
hai giao diện Exalead tiếng Pháp và Exalead tiếng Anh. Có
nhiều chức năng tìm kiếm nâng cao giúp
giới hạn phạm vi tìm kiếm. Kết quả được giới thiệu
kèm với hình ảnh thu nhỏ của trang web và
những gợi ý giúp tìm kiếm kĩ hơn bằng
các thuật ngữ, khái niệm lân cận
và chủ đề liên quan.
- Factbites:
cung cấp thông tin bách khoa, với những
trích đoạn hoàn chỉnh và có
nghĩa về vấn đề đang tìm kiếm, thu thập được từ
các trang web
khác nhau, gợi ý các chủ đề
lân cận, có liên quan cũng như danh
sách các chủ đề được tìm kiếm nhiều
nhất. Giao diện duy nhất bằng tiếng Anh.
- Google:
bộ máy tìm kiếm được sử dụng nhiều nhất hiện nay,
sưu tập được một lượng thông tin vô cùng
lớn trên Mạng, bằng hầu như tất cả các thứ
ngôn ngữ có tồn tại trên Internet.
Có nhiều tính năng tìm kiếm
nâng cao khác nhau, giúp dễ
dàng giới hạn phạm vi tìm kiếm. Có
giao diện bằng nhiều thứ tiếng, kể cả tiếng Việt.
- Tiêu chí xếp hạng
PageRank do
Google định nghĩa dựa vào cách tính
toán số siêu liên kết hướng
vào (tăng điểm) và hướng ra (giảm điểm) của một website. Do
đó, PageRank cao chỉ đồng nghĩa với mức độ phổ biến của
một trang web
hay website
chứ không hoàn toàn đồng nghĩa với chất lượng thông tin
của trang web
hay website
đó.
- Kết quả tìm kiếm được
trình bày theo kiểu trích đoạn
các phần nội dung có chứa chính xác
từ cần tìm kiếm, đôi khi
toàn bộ các đoạn trích không
liên quan gì đến nhau.
- Kết quả của một lượt tìm
kiếm thường quá
nhiều, đến mức khó hoặc không thể xử
lí nổi.
- Google
Scholar: phiên bản thử nghiệm,
giúp tìm kiếm các thông tin
thuần tuý khoa học và học thuật (sách,
tạp chí, luận văn, luận án, bài
giảng,...), thu thập từ các trường đại học, viện
nghiên cứu, phòng thí nghiệm,
nhà xuất bản khoa học, các chuyên gia,
các tổ chức, v.v.
- Scirus:
tìm kiếm các tài liệu có
tính học thuật trong các ngành khoa
học (giới thiệu và/hoặc phổ
biến qua Science Direct, PubMed, ArXiv,
BioMed Central, v.v.), hiệu quả tốt hơn Google Scholar về nhiều mặt,
với nhiều
tính năng tìm kiếm nâng cao
và giới hạn phạm vi tìm kiếm.
- Yahoo!:
bộ máy tìm kiếm tương tự như Google, cũng khá
phổ biến và hiệu quả,
có nhiều chức năng tìm kiếm
nâng cao, hạn chế phạm vi tìm kiếm, v.v.
Bài tập tự kiểm tra
|