Sử dụng công cụ dịch Google Translate trên Wikipedia: thảm họa chất lượng nội dung

Các phiên bản ngôn ngữ quy mô nhỏ thực sự cần có các công cụ dịch máy để mở rộng kho nội dung của mình, trong bối cảnh có quá ít tình nguyện viên tham gia xây dựng chúng. Tuy vậy, liệu các công cụ dịch máy hiện nay có thể đáp ứng được yêu cầu về chất lượng dịch thuật và độ chính xác về mặt tri thức đối với một bách khoa toàn thư mà mọi người đều tin dùng hay chưa?

Wikipedia được thành lập với mục tiêu cung cấp các tri thức mở, miễn phí cho tất cả mọi người trên khắp thế giới — song ở thời điểm hiện tại, đa số nội dung chất lượng của bách khoa toàn thư này đều viết bằng tiếng Anh. Phiên bản Wikipedia tiếng Anh là phiên bản có quy mô lớn nhất ở thời điểm hiện tại, với khoảng 5,5 triệu bài viết. Trong tổng số 301 phiên bản ngôn ngữ khác nhau của Wikipedia, chỉ có 15 phiên bản ngôn ngữ có trên 1 triệu bài viết. Chất lượng của các bài viết này có sự khác biệt rất đáng kể. Nhiều phiên bản ngôn ngữ thiếu khá nhiều bài viết cơ bản. Có 206/301 phiên bản ngôn ngữ không có bài viết về "hạnh phúc" và có quá nửa trong số 301 phiên bản ngôn ngữ không có bài viết về "loài homo sapiens" (người hiện đại).

Có vẻ như vấn đề này hoàn toàn có thể được giải quyết nhờ vào các công cụ dịch máy. Hồi tháng 1 vừa qua, Google đã phối hợp với Quỹ Wikimedia (tổ chức điều hành các dự án tri thức mở, trong đó có Wikipedia) để bước đầu tìm cách khắc phục vấn đề trên, thông qua việc tích hợp dịch vụ dịch thuật Google Translate của Google vào công cụ biên dịch nội dung của chính Wikimedia. Trước đây, công cụ biên dịch nội dung của Wikipedia là một phần mềm mã nguồn mở ít được sử dụng, do đó tồn tại nhiều vấn đề. Vì vậy, việc sử dụng công cụ dịch thuật Google Translate vô cùng phổ biến của Google được coi như đã mở ra những tiềm năng rất lớn với sự phát triển về nội dung của bách khoa toàn thư này. Dù vậy, các biên tập viên đang hoạt động trên các phiên bản ngôn ngữ không phải tiếng Anh lại cho rằng công cụ biên dịch nội dung mới giống như một "lời nguyền" nhiều hơn là phép màu, từ đó dấy lên cuộc tranh luận về việc liệu có nên ứng dụng dịch máy vào bách khoa toàn thư Wikipedia hay không.

Được tích hợp dưới dạng một tính năng thử nghiệm, công cụ biên dịch nội dung của Wikipedia cho phép các biên tập viên xem trước một bản dịch (máy) mẫu của bài viết tương đương từ phiên bản ngôn ngữ khác. Nếu được sử dụng một cách hợp lý, công cụ này có thể giúp tiết kiệm thời gian cho các biên tập viên đang hoạt động tại các phiên bản ngôn ngữ có nguồn nhân lực hạn chế — nhưng nếu bị lạm dụng sai cách, hậu quả có thể sẽ rất nghiêm trọng. Một quản trị viên toàn hệ thống của Wikipedia đã chỉ ra một lỗi dịch thuật rất "nguy hiểm" khi sử dụng công cụ dịch máy tự động từ phiên bản tiếng Anh sang tiếng Bồ Đào Nha. Trang "Village Pump" (nghĩa đen: khu bơm nước chung của làng, nghĩa bóng: một khu vực công cộng cho phép các biên tập viên có thể trao đổi những vấn đề chung, giúp đỡ người mới…) thì khi chuyển sang tiếng Bồ Đào Nha, máy lại dịch thành "đánh bom ngôi làng" (!)

"Nhiều người cho rằng Google Translate là một công cụ hoàn hảo," vị quản trị viên trên cho hay. Phóng viên chuyên trang The Verge liên hệ với người này thông qua tên tài khoản của anh/chị ta trên Wikipedia là Vermont. "Nhưng chắc chắn là nó không thể là phương tiện thay thế hoàn toàn để hiểu được một ngôn ngữ."

Những bản dịch máy lủng củng và thậm chí là sai lệch hẳn về ý nghĩa đã trở thành một vấn đề nhức nhối của Wikipedia trong một thời gan dài, đến mức mà một số phiên bản ngôn ngữ đã thiết lập những quy tắc đặc biệt cho phép các quản trị viên loại bỏ những bài viết như vậy mà không cần thông qua thảo luận của cộng đồng. Phiên bản Wikipedia tiếng Anh đã biểu quyết để xây dựng một tiêu chuẩn "xoá nhanh bài viết" tạm thời nhằm cho phép các quản trị viên xoá "bất kỳ trang nào được tạo bởi công cụ biên dịch nội dung trước ngày 27 tháng 7 năm 2016," miễn là trong lịch sử trang đó không có phiên bản nào do người thực dịch. Tên của tiêu chuẩn xoá nhanh bài "đặc biệt" này là "X2. Trang được tạo ra bởi công cụ biên dịch nội dung."

Đây có thể là điều bất ngờ nếu bạn theo dõi thông tin trên các phương tiện truyền thông gần đây rằng trí tuệ nhân tạo đang đạt được những kết quả dịch thuật "ngang ngửa" với người thực. Tuy nhiên kết quả trên thu được trong điều kiện những bài test nhỏ lẻ, được thiết kế riêng để phù hợp với khả năng trung bình của công nghệ dịch máy. Còn khi phần mềm được triển khai ứng dụng ngoài thực tế, các hạn chế của trí tuệ nhân tạo được thể hiện rõ hơn rất nhiều. Theo ông Douglas Hofstadter, Giáo sư về Khoa học nhận thức tại Trường Đại học Indiana Bloomington, trí tuệ nhân tạo (AI) thường cho ra những bản dịch khá "nông" về nghĩa. Mặc dù nó có thể dịch ra những văn bản bề ngoài khá lưu loát, song lại thường để sót mất những tầng ý nghĩa sâu xa của các từ ngữ và câu. Các hệ thống AI học cách dịch văn bản thông qua việc nghiên cứu và chọn ra các mô hình lặp đi lặp lại từ những khối dữ liệu lớn được sử dụng để đào tạo chúng. Nhưng điều đó có nghĩa là chúng sẽ hoàn toàn "bất lực" với các sắc thái ngôn ngữ không được sử dụng thường xuyên, nếu thiếu đi những tư duy thường thức của con người.

Vấn đề của các biên tập viên trên Wikipedia là khoảng cách về trình độ và kĩ năng giữa họ. Các bản dịch máy cần có con người kiểm tra cẩn thận; bản thân những tình nguyện viên tham gia dịch bài phải có hiểu biết tốt cả ngôn ngữ nguồn và ngôn ngữ đích. Đây là một khó khăn thực sự đối với các phiên bản Wikipedia nhỏ, vốn đã luôn ở trong tình trạng thiếu tình nguyện viên.

Guilherme Morandini, quản trị viên phiên bản Wikipedia tiếng Bồ Đào Nha, thường thấy các tình nguyện viên trực tiếp xuất bản các bài viết được dịch máy từ các phiên bản ngôn ngữ khác sang mà không có sự kiểm tra, đối chiếu nào. Theo kinh nghiệm của anh, kết quả của những bài viết dịch máy như thế thường là những câu văn lủng củng hoặc thậm chí là hoàn toàn vô nghĩa, là một "thảm hoạ" đối với một trang web vốn được coi như một trong những nguồn thông tin đáng tin cậy nhất của thế giới Internet. Trả lời phóng viên chuyên trang The Verge, Morandini lấy ví dụ là bài viết về nhân vật Jusuf Nurkić, được "dịch máy" từ bài viết tiếng Anh sang tiếng Bồ Đào Nha. Dòng đầu tiên "... é um Bósnio profissional que atualmente joga ..." dịch ra có nghĩa là "... một chuyên gia người Bosnian hiện đang chơi cho ...," khác khá nhiều so với phiên bản tiếng Anh "… is a Bosnian professional basketball player" (là một vận động viên bóng rổ chuyên nghiệp người Bosnia).

Cộng đồng Wikipedia tiếng Indonesia thậm chí còn có những động thái quyết liệt hơn khi yêu cầu Quỹ Wikimedia loại bỏ công cụ trên khỏi phiên bản Wikipedia của họ. Quỹ Wikimedia tỏ thái độ miễn cưỡng với yêu cầu này (dựa trên các cuộc trao đổi qua lại giữa Quỹ và cộng đồng Wikipedia tiếng Indonesia) – trên thực tế, trong quá khứ Wikimedia đã từng sử dụng "quyền lực" của mình để ngăn cản các yêu cầu dựa trên ý kiến đồng thuận chung của cộng đồng. Một số người còn bày tỏ lo ngại sự việc tương tự như với công cụ Media Viewer hồi năm 2014 có thể sẽ lặp lại, vốn đã gây mâu thuẫn và mất niềm tin sâu sắc giữa Quỹ Wikimedia và các cộng đồng người dùng mà Quỹ này đang vận hành.

João Alexandre Peschanski, Giáo sư chuyên ngành Báo chí tại Trường Đại học Faculdade Cásper Líbero, Brazil, người hiện đang giảng dạy một khoá học trên nền tảng Wikiversity (cũng do Quỹ Wikimedia vận hành), là một trong những người cũng tham gia chỉ trích hệ thống dịch máy hiện tại của Quỹ. Peschanski cho biết "cần thảo luận một chiến lược áp dụng với toàn bộ cộng đồng người dùng để cải thiện chất lượng máy học, bởi hiệu quả công việc của chúng ta đang bị giảm sút rất nhiều chủ yếu bởi mất quá nhiều thời gian vào công đoạn dịch thuật phức tạp." Việc dịch thuật là mấu chốt, là chìa khoá, và theo kinh nghiệm của Peschanski, các hệ thống dịch thuật tự động hoạt động "khá tốt". Theo ông, vấn đề chính ở đây là việc tìm những trang "bản mẫu" (template) tương đương giữa các phiên bản ngôn ngữ khác nhau. Các bản mẫu là nơi lưu trữ những nội dung lặp đi lặp lại ở nhiều bài viết và thậm chí là giữa các phiên bản ngôn ngữ với nhau. Nhờ chúng mà việc phân tích và xử lý ngôn ngữ có thể diễn ra một cách tự động và giảm bớt lượng nội dung cần dịch.

Peschanski nhìn nhận dịch thuật là một hoạt động "tái sử dụng" và "thích nghi", trong đó việc "tái sử dụng" dữ liệu giữa các phiên bản ngôn ngữ còn phải phụ thuộc vào việc liệu các ngôn ngữ khác có chứa những bài viết với chủ đề tương đương hay không. Trong khi đó, "thích nghi" là quá trình "chuyển tải những bối cảnh văn hoá và ngôn ngữ đặc trưng, cụ thể của một ngôn ngữ hoàn toàn khác" vào bản dịch. Giải pháp vĩ mô hơn cần triển khai lúc này là phải áp dụng một hệ thống quy định cấm hoàn toàn các bản dịch máy mà không qua biên tập viên kiểm tra lại.

Đa số người dùng trả lời phỏng vấn của chuyên trang The Verge đều cho biết họ mong muốn kết hợp giữa dịch thuật thủ công và dịch máy, tuy nhiên dịch máy chỉ được áp dụng để tra cứu một số thuật ngữ cụ thể. Tất cả mọi người đều đồng tình với ý kiến của Vermont cho rằng "dịch máy sẽ không bao giờ có thể trở thành một phương thức viết bài trên Wikipedia, đơn giản là bởi máy móc hiện nay vẫn chưa thể hiểu hoàn toàn được những cụm từ phức tạp mà con người sử dụng, nhất là trong những trường hợp các ngôn ngữ khác nhau không có những cụm từ với ý nghĩa tương đương," song cũng không hoàn toàn phủ nhận vai trò của dịch máy.

Đối mặt với những rào cản như vậy, các dự án ngôn ngữ quy mô nhỏ sẽ luôn ở trong tình trạng thua kém về chất lượng so với Wikipedia tiếng Anh. Trên thực tế, chất lượng là một khái niệm tương đối; việc loại bỏ hoàn toàn những bài viết chưa hoàn thiện hoặc chất lượng viết kém là bất khả thi. Tuy vậy, điều gì cũng có cái giá của nó. "Ở Brazil," Morandini chia sẻ, "Wikipedia vẫn được coi là một nguồn không đáng tin cậy," và những bài viết dịch thuật cẩu thả từ phiên bản tiếng Anh sang chắc chắn sẽ không thể giúp cải thiện tiếng xấu đó. Cả Vermont và Morandini đều đồng tình rằng, đối với trường hợp những bài viết hoàn toàn là dịch máy, thì thà xoá những bài đó đi còn hơn. Bởi đa số các bài viết đó đều có "chất lượng quá tệ để mà giữ lại."

Quang Huy

 
 
List comment
 
Mã độc tống tiền – Nguy cơ và giải pháp phòng chống
icon

Trên đường đua Chuyển Đổi Số, các Doanh nghiệp đang tìm kiếm lợi thế cạnh tranh thông qua việc đưa ra quyết định nhanh hơn, sáng suốt hơn, được hỗ trợ bởi nguồn dữ liệu năng động và luôn sẵn sàng. 

 
Apple ra mắt Apple Watch Series 6 giá 399 USD, iPad giá 329 USD, iPad Air giá 599 USD
icon

Vào lúc 0h sáng ngày 16/9 theo giờ Hà Nội, Apple đã tổ chức sự kiện ra mắt sản phẩm mới. Tâm điểm của sự kiện là 2 sản phẩm Apple Watch Series 6 và iPad Air mới.  

 
Mất tiền trong tài khoản vì truy cập vào đường link lạ
icon

Từ SMS, kẻ gian gửi đường link dụ nạn nhân truy cập vào trang web lạ và thực hiện các thao tác do bọn chúng hướng dẫn. Đến khi hoàn tất các thao tác thì cũng là lúc số tiền trong tài khoản của nạn nhân “không cánh mà bay”.

 
Sắp diễn ra hội thảo trực tuyến chủ đề: Sử dụng NGINX trên nền tảng Kubenetes
icon

Hội thảo trực tuyến trình bày chủ đề sử dụng NGINX trên nền tảng Kubeneter do công ty TNHH WESTCON GROUP (VIỆT NAM) phối hợp với F5 Networks Vietnam tổ chức sẽ diễn ra vào lúc 10 giờ đến 11 giờ 30, ngày 25/09/2020.

 
Khi YouTube biến thành nơi để Vlogger kiếm tiền bằng 'video rác'
icon

Hàng trăm nghìn 'công nhân số' người Việt đang lao đầu vào làm việc cho 'xí nghiệp' nội dung YouTube, tạo ra hàng triệu video mỗi ngày.

 
 
Đợt dịch Covid-19 thứ 2 được kiểm soát, người dân vẫn cần cài ứng dụng Bluezone
icon

Tuy làn sóng thứ hai của dịch Covid-19 tại Việt Nam đã cơ bản được kiểm soát song Cục Tin học hóa, Bộ TT&TT khuyến nghị người dân vẫn cần cài đặt, sử dụng các ứng dụng CNTT để phòng chống dịch, trong đó có ứng dụng Bluezone.

Website TMĐT bán hàng giả, hàng cấm sẽ bị phạt tiền, thu hồi tên miền
icon

Từ 15/10, các cá nhân có hành vi bán hàng giả, hàng cấm hoặc hàng vi phạm sở hữu trí tuệ trên website TMĐT sẽ bị xử phạt tới 20 triệu đồng. Mức phạt dành cho các tổ chức, doanh nghiệp sẽ nặng gấp đôi.

TikTok không bán cho Oracle
icon

Thay vì mua lại, Oracle trở thành “nhà cung cấp công nghệ đáng tin cậy” cho TikTok tại Mỹ.  

Tim Cook ở khán phòng không có khán giả và sự kiện ra mắt sản phẩm chưa từng có trong lịch sử Apple
icon

Sự kiện Apple vốn vẫn được xem là một 'đặc sản' của ngành công nghệ với những khán phòng kín chỗ và sự hào hứng tột đỉnh. Song đó không phải là chuyện của năm nay.

Alibaba đang đàm phán để đầu tư 3 tỉ USD vào ông lớn Grab
icon

Đây có thể sẽ là khoản đầu tư lớn nhất của Alibaba vào Đông Nam Á kể từ năm 2016.

 
123

Giấy phép hoạt động báo chí: Số 09/GP-BTTTT, Bộ Thông tin và Truyền thông cấp ngày 07/01/2019.

Tòa soạn: Tầng 7, Tòa nhà Cục Tần số Vô tuyến điện, 115 Trần Duy Hưng, Quận Cầu Giấy, Hà Nội

Điện thoại: 024 3 936 9966 - Fax: 024 3 936 9364

Hotline nội dung: 0888 911 911 - Email: toasoan@ictnews.vn

123