 |
| Ảnh minh họa |
Các kết quả công bố về
thực trạng lỗi chính tả trên văn bản tiếng Việt của một nhóm các nhà khoa học tại Viện Công nghệ Thông tin (ĐH Quốc gia Hà Nội) và Trung tâm Nghiên cứu Phát triển Công nghệ GRID (Công ti VIEGRID JSC) đã làm cho dư luận hết sức sửng sốt.
Bởi với tỉ lệ lỗi trung bình là 7,79% và đặc biệt là có những cơ quan tỉ lệ lỗi tới 30%, thậm chí gần 40% thì có lẽ chúng ta phải rung chuông báo động đỏ không chỉ một lần, mà phải vài ba lần là ít. Xem ra, cứ 100 trường hợp thì có tới 7 đến 40 lỗi, ngay cả học sinh tiểu học mà mắc lỗi như thế cũng không thể chấp nhận được.
Là một người nghiên cứu ngôn ngữ, trực tiếp làm công tác biên tập trong nhiều năm, tôi rất băn khoăn và hoài nghi về kết quả thống kê này. Tôi cũng từng đọc sách, báo, văn bản rất nhiều, và bằng trực giác nghề nghiệp, tôi thấy đây đó cũng còn để sót lỗi chính tả. Nhưng nói chung là không đến nỗi. Với nhiều tờ báo thông dụng mà tôi thường đọc (Chẳng hạn
Nhân Dân,
Lao Động,
Tuổi Trẻ,
Thanh Niên,
Thể thao và Văn hoá… hay sách giáo khoa) hiện tượng mắc lỗi chính tả hầu như không đáng kể. Chính văn bản hành chính lại là khu vực cần lưu ý về lỗi chính tả và quy cách nhất…
Vấn đề đặt ra ở đây là, hai cơ quan nghiên cứu trên căn cứ vào đâu để bắt lỗi và đưa ra nhiều lỗi đến thế?
 |
| Soát lỗi chính tả bằng phần mềm (Ảnh minh họa) |
Chính tả là “cách viết chữ được coi là chuẩn”. Lấy cơ sở mẫu tự Latin, chính tả tiếng Việt được thể hiện căn cứ vào chính âm (lấy phát âm làm chuẩn, đọc thế nào thì viết thế ấy). Nhưng từ khi ra đời hệ thống chữ Quốc ngữ (cuối thế kỉ 17) đến nay, hệ thống con chữ do A. de Rhodes và một số học giả - cố đạo châu Âu đặt ra đã bộc lộ một số bất hợp lí, nhất là khi “đọ” với cách phát âm mang đặc thù phương ngữ ở các vùng miền ở nước ta. Vì vậy, đã có một độ chênh nhất định giữa chính âm và chính tả.
Tuy nhiên, điều này cũng không ảnh hưởng nhiều tới việc chuẩn hoá chính tả tiếng Việt. Trong những năm gần đây, nhiều cơ quan chuyên môn (Viện Ngôn ngữ học, Hội Ngôn ngữ học VN) và nhất là Bộ Giáo dục và Đào tạo đã cố gắng đi đến thống nhất và cho ra đời các cuốn Từ điển tiếng Việt, Từ điển chính tả tiếng Việt mang tính chuẩn hoá. Cũng như nhiều ngôn ngữ khác, chính tả tiếng Việt là một phạm trù của ngôn ngữ văn hoá. Vì vậy khi xem xét chuẩn chính tả, chúng ta phải căn cứ vào nhiều yếu tố chứ không thuần tuý dựa vào các nguyên tắc logic cứng nhắc.
 |
| "Bánh trưng" thay vì "bánh chưng"... Ảnh chụp lỗi sai chính tả trên băng-rôn ở một lễ hội và được báo chí phát hiện |
Viết sai chính tả chủ yếu rơi vào một số trường hợp: 1. Dùng sai con chữ (ví dụ nhầm các biến thể x/s; r/d/gi; i/y; ng/ngh; ch/tr, c/k/q,…); 2. Viết hoa không phù hợp (viết hoa cú pháp, viết hoa tên riêng, viết hoa tu từ…); 3. Viết sai tiếng nước ngoài, thường là tên riêng (mà hiện tại áp dụng theo nhiều cách: phiên âm, chuyển tự, nguyên dạng)...
Nhưng có nhiều trường hợp chính tả hình thành theo thói quen khó sửa (viết là
rượu nhưng đọc là [
diệu],
hươu đọc thành [
hiêu]; viết
trân trọng nhưng vẫn đọc là [
chân chọng]; viết
sạch sành sanh lại đọc là [
xạch xành xanh]…). Vì thế, giáo viên luyện viết chính tả của ta phải áp dụng “lối phát âm giả tạo” (cố đọc cong lưỡi) để hướng cho học sinh phân biệt mà viết đúng. Nếu người sử dụng ngôn ngữ không chịu quan sát và trau dồi việc viết thì rất dễ mắc lỗi nếu gặp từ đó lần đầu (hoặc hoạ hoắn mới gặp).
Không hiếm người viết sai
chân thành thành
trân thành,
trân trọng thành
chân trọng,
nguệch ngoạc thành
nghuệch ngoạc… Đấy là chưa nói có những trường hợp lưỡng khả, cho phép cùng tồn tại (
chuyện/ truyện vui, trau dồi/ giồi, dông/ giông bão), tam khả (
dâm/ râm/ giâm bụt). Tên các tổ chức có cấu trúc khá dài, nhiều chức năng ghép lại cũng sẽ được viết hoa theo những quy cách khác nhau (ví dụ:
CÔNG TI XUẤT NHẬP KHẨU VÀ PHÁT HÀNH SÁCH BÁO VÀ VĂN HOÁ PHẨM VIỆT NAM nếu viết thường chắc chắn sẽ có nhiều cách viết hoa các từ cần phân biệt trong tổ hợp này)… Bắt lỗi sao đây?
Chính vì vậy, nếu áp dụng công nghệ thông tin để xây dựng phần mềm soát lỗi chính tả thì phải dựa trên cơ sở dữ liệu có độ tin cậy cần thiết. Nếu tuỳ tiện áp đặt các cơ sở lệch chuẩn hoặc không đủ năng lực rà soát, chọn lựa thì chắc chắn máy sẽ bắt lỗi nhầm.
Ngôn ngữ không phải là hệ thống có thể “thuật toán hoá” mà nhiều khi phải dựa vào tri thức nền và mẫn cảm ngôn từ nữa. Không ít người sửa morasse đã để lọt những lỗi “chết người”, như viết
giao thoa và chuyển đi (lẽ ra là
giao thoa và chuyển di), hiện tượng
hủ hoá của từ (lẽ ra là hiện tượng
hư hoá của từ). Tôi tin chắc là máy sẽ không thể nhận diện chính xác những trường hợp như vậy, bởi lẽ cả 2 biến thể đều có nghĩa, đều đúng chính tả so với các nghĩa đó…
Chính tả vẫn luôn là vấn đề thời sự ở mọi ngôn ngữ, ở mọi thời đại. Bất cứ ai cũng có thể mắc lỗi. Nhưng lỗi sẽ bớt dần (và bớt tới mức chấp nhận được) nếu người viết biết nhận ra sai sót khi “vấp” phải nó trong quá trình soạn thảo và xử lí văn bản. Việc áp dụng công nghệ thông tin để “nhặt lỗi” văn bản là cần thiết nhưng hãy cẩn thận. Có vẻ như Viện Công nghệ Thông tin (ĐHQG HN) và Công ti VIEGRID JSC đang thực hiện chiến dịch “thà bắt nhầm hơn bỏ sót”.