Sử dụng công cụ dịch Google Translate trên Wikipedia: thảm họa chất lượng nội dung

Các phiên bản ngôn ngữ quy mô nhỏ thực sự cần có các công cụ dịch máy để mở rộng kho nội dung của mình, trong bối cảnh có quá ít tình nguyện viên tham gia xây dựng chúng. Tuy vậy, liệu các công cụ dịch máy hiện nay có thể đáp ứng được yêu cầu về chất lượng dịch thuật và độ chính xác về mặt tri thức đối với một bách khoa toàn thư mà mọi người đều tin dùng hay chưa?

Wikipedia được thành lập với mục tiêu cung cấp các tri thức mở, miễn phí cho tất cả mọi người trên khắp thế giới — song ở thời điểm hiện tại, đa số nội dung chất lượng của bách khoa toàn thư này đều viết bằng tiếng Anh. Phiên bản Wikipedia tiếng Anh là phiên bản có quy mô lớn nhất ở thời điểm hiện tại, với khoảng 5,5 triệu bài viết. Trong tổng số 301 phiên bản ngôn ngữ khác nhau của Wikipedia, chỉ có 15 phiên bản ngôn ngữ có trên 1 triệu bài viết. Chất lượng của các bài viết này có sự khác biệt rất đáng kể. Nhiều phiên bản ngôn ngữ thiếu khá nhiều bài viết cơ bản. Có 206/301 phiên bản ngôn ngữ không có bài viết về "hạnh phúc" và có quá nửa trong số 301 phiên bản ngôn ngữ không có bài viết về "loài homo sapiens" (người hiện đại).

Có vẻ như vấn đề này hoàn toàn có thể được giải quyết nhờ vào các công cụ dịch máy. Hồi tháng 1 vừa qua, Google đã phối hợp với Quỹ Wikimedia (tổ chức điều hành các dự án tri thức mở, trong đó có Wikipedia) để bước đầu tìm cách khắc phục vấn đề trên, thông qua việc tích hợp dịch vụ dịch thuật Google Translate của Google vào công cụ biên dịch nội dung của chính Wikimedia. Trước đây, công cụ biên dịch nội dung của Wikipedia là một phần mềm mã nguồn mở ít được sử dụng, do đó tồn tại nhiều vấn đề. Vì vậy, việc sử dụng công cụ dịch thuật Google Translate vô cùng phổ biến của Google được coi như đã mở ra những tiềm năng rất lớn với sự phát triển về nội dung của bách khoa toàn thư này. Dù vậy, các biên tập viên đang hoạt động trên các phiên bản ngôn ngữ không phải tiếng Anh lại cho rằng công cụ biên dịch nội dung mới giống như một "lời nguyền" nhiều hơn là phép màu, từ đó dấy lên cuộc tranh luận về việc liệu có nên ứng dụng dịch máy vào bách khoa toàn thư Wikipedia hay không.

Được tích hợp dưới dạng một tính năng thử nghiệm, công cụ biên dịch nội dung của Wikipedia cho phép các biên tập viên xem trước một bản dịch (máy) mẫu của bài viết tương đương từ phiên bản ngôn ngữ khác. Nếu được sử dụng một cách hợp lý, công cụ này có thể giúp tiết kiệm thời gian cho các biên tập viên đang hoạt động tại các phiên bản ngôn ngữ có nguồn nhân lực hạn chế — nhưng nếu bị lạm dụng sai cách, hậu quả có thể sẽ rất nghiêm trọng. Một quản trị viên toàn hệ thống của Wikipedia đã chỉ ra một lỗi dịch thuật rất "nguy hiểm" khi sử dụng công cụ dịch máy tự động từ phiên bản tiếng Anh sang tiếng Bồ Đào Nha. Trang "Village Pump" (nghĩa đen: khu bơm nước chung của làng, nghĩa bóng: một khu vực công cộng cho phép các biên tập viên có thể trao đổi những vấn đề chung, giúp đỡ người mới…) thì khi chuyển sang tiếng Bồ Đào Nha, máy lại dịch thành "đánh bom ngôi làng" (!)

"Nhiều người cho rằng Google Translate là một công cụ hoàn hảo," vị quản trị viên trên cho hay. Phóng viên chuyên trang The Verge liên hệ với người này thông qua tên tài khoản của anh/chị ta trên Wikipedia là Vermont. "Nhưng chắc chắn là nó không thể là phương tiện thay thế hoàn toàn để hiểu được một ngôn ngữ."

Những bản dịch máy lủng củng và thậm chí là sai lệch hẳn về ý nghĩa đã trở thành một vấn đề nhức nhối của Wikipedia trong một thời gan dài, đến mức mà một số phiên bản ngôn ngữ đã thiết lập những quy tắc đặc biệt cho phép các quản trị viên loại bỏ những bài viết như vậy mà không cần thông qua thảo luận của cộng đồng. Phiên bản Wikipedia tiếng Anh đã biểu quyết để xây dựng một tiêu chuẩn "xoá nhanh bài viết" tạm thời nhằm cho phép các quản trị viên xoá "bất kỳ trang nào được tạo bởi công cụ biên dịch nội dung trước ngày 27 tháng 7 năm 2016," miễn là trong lịch sử trang đó không có phiên bản nào do người thực dịch. Tên của tiêu chuẩn xoá nhanh bài "đặc biệt" này là "X2. Trang được tạo ra bởi công cụ biên dịch nội dung."

Đây có thể là điều bất ngờ nếu bạn theo dõi thông tin trên các phương tiện truyền thông gần đây rằng trí tuệ nhân tạo đang đạt được những kết quả dịch thuật "ngang ngửa" với người thực. Tuy nhiên kết quả trên thu được trong điều kiện những bài test nhỏ lẻ, được thiết kế riêng để phù hợp với khả năng trung bình của công nghệ dịch máy. Còn khi phần mềm được triển khai ứng dụng ngoài thực tế, các hạn chế của trí tuệ nhân tạo được thể hiện rõ hơn rất nhiều. Theo ông Douglas Hofstadter, Giáo sư về Khoa học nhận thức tại Trường Đại học Indiana Bloomington, trí tuệ nhân tạo (AI) thường cho ra những bản dịch khá "nông" về nghĩa. Mặc dù nó có thể dịch ra những văn bản bề ngoài khá lưu loát, song lại thường để sót mất những tầng ý nghĩa sâu xa của các từ ngữ và câu. Các hệ thống AI học cách dịch văn bản thông qua việc nghiên cứu và chọn ra các mô hình lặp đi lặp lại từ những khối dữ liệu lớn được sử dụng để đào tạo chúng. Nhưng điều đó có nghĩa là chúng sẽ hoàn toàn "bất lực" với các sắc thái ngôn ngữ không được sử dụng thường xuyên, nếu thiếu đi những tư duy thường thức của con người.

Vấn đề của các biên tập viên trên Wikipedia là khoảng cách về trình độ và kĩ năng giữa họ. Các bản dịch máy cần có con người kiểm tra cẩn thận; bản thân những tình nguyện viên tham gia dịch bài phải có hiểu biết tốt cả ngôn ngữ nguồn và ngôn ngữ đích. Đây là một khó khăn thực sự đối với các phiên bản Wikipedia nhỏ, vốn đã luôn ở trong tình trạng thiếu tình nguyện viên.

Guilherme Morandini, quản trị viên phiên bản Wikipedia tiếng Bồ Đào Nha, thường thấy các tình nguyện viên trực tiếp xuất bản các bài viết được dịch máy từ các phiên bản ngôn ngữ khác sang mà không có sự kiểm tra, đối chiếu nào. Theo kinh nghiệm của anh, kết quả của những bài viết dịch máy như thế thường là những câu văn lủng củng hoặc thậm chí là hoàn toàn vô nghĩa, là một "thảm hoạ" đối với một trang web vốn được coi như một trong những nguồn thông tin đáng tin cậy nhất của thế giới Internet. Trả lời phóng viên chuyên trang The Verge, Morandini lấy ví dụ là bài viết về nhân vật Jusuf Nurkić, được "dịch máy" từ bài viết tiếng Anh sang tiếng Bồ Đào Nha. Dòng đầu tiên "... é um Bósnio profissional que atualmente joga ..." dịch ra có nghĩa là "... một chuyên gia người Bosnian hiện đang chơi cho ...," khác khá nhiều so với phiên bản tiếng Anh "… is a Bosnian professional basketball player" (là một vận động viên bóng rổ chuyên nghiệp người Bosnia).

Cộng đồng Wikipedia tiếng Indonesia thậm chí còn có những động thái quyết liệt hơn khi yêu cầu Quỹ Wikimedia loại bỏ công cụ trên khỏi phiên bản Wikipedia của họ. Quỹ Wikimedia tỏ thái độ miễn cưỡng với yêu cầu này (dựa trên các cuộc trao đổi qua lại giữa Quỹ và cộng đồng Wikipedia tiếng Indonesia) – trên thực tế, trong quá khứ Wikimedia đã từng sử dụng "quyền lực" của mình để ngăn cản các yêu cầu dựa trên ý kiến đồng thuận chung của cộng đồng. Một số người còn bày tỏ lo ngại sự việc tương tự như với công cụ Media Viewer hồi năm 2014 có thể sẽ lặp lại, vốn đã gây mâu thuẫn và mất niềm tin sâu sắc giữa Quỹ Wikimedia và các cộng đồng người dùng mà Quỹ này đang vận hành.

João Alexandre Peschanski, Giáo sư chuyên ngành Báo chí tại Trường Đại học Faculdade Cásper Líbero, Brazil, người hiện đang giảng dạy một khoá học trên nền tảng Wikiversity (cũng do Quỹ Wikimedia vận hành), là một trong những người cũng tham gia chỉ trích hệ thống dịch máy hiện tại của Quỹ. Peschanski cho biết "cần thảo luận một chiến lược áp dụng với toàn bộ cộng đồng người dùng để cải thiện chất lượng máy học, bởi hiệu quả công việc của chúng ta đang bị giảm sút rất nhiều chủ yếu bởi mất quá nhiều thời gian vào công đoạn dịch thuật phức tạp." Việc dịch thuật là mấu chốt, là chìa khoá, và theo kinh nghiệm của Peschanski, các hệ thống dịch thuật tự động hoạt động "khá tốt". Theo ông, vấn đề chính ở đây là việc tìm những trang "bản mẫu" (template) tương đương giữa các phiên bản ngôn ngữ khác nhau. Các bản mẫu là nơi lưu trữ những nội dung lặp đi lặp lại ở nhiều bài viết và thậm chí là giữa các phiên bản ngôn ngữ với nhau. Nhờ chúng mà việc phân tích và xử lý ngôn ngữ có thể diễn ra một cách tự động và giảm bớt lượng nội dung cần dịch.

Peschanski nhìn nhận dịch thuật là một hoạt động "tái sử dụng" và "thích nghi", trong đó việc "tái sử dụng" dữ liệu giữa các phiên bản ngôn ngữ còn phải phụ thuộc vào việc liệu các ngôn ngữ khác có chứa những bài viết với chủ đề tương đương hay không. Trong khi đó, "thích nghi" là quá trình "chuyển tải những bối cảnh văn hoá và ngôn ngữ đặc trưng, cụ thể của một ngôn ngữ hoàn toàn khác" vào bản dịch. Giải pháp vĩ mô hơn cần triển khai lúc này là phải áp dụng một hệ thống quy định cấm hoàn toàn các bản dịch máy mà không qua biên tập viên kiểm tra lại.

Đa số người dùng trả lời phỏng vấn của chuyên trang The Verge đều cho biết họ mong muốn kết hợp giữa dịch thuật thủ công và dịch máy, tuy nhiên dịch máy chỉ được áp dụng để tra cứu một số thuật ngữ cụ thể. Tất cả mọi người đều đồng tình với ý kiến của Vermont cho rằng "dịch máy sẽ không bao giờ có thể trở thành một phương thức viết bài trên Wikipedia, đơn giản là bởi máy móc hiện nay vẫn chưa thể hiểu hoàn toàn được những cụm từ phức tạp mà con người sử dụng, nhất là trong những trường hợp các ngôn ngữ khác nhau không có những cụm từ với ý nghĩa tương đương," song cũng không hoàn toàn phủ nhận vai trò của dịch máy.

Đối mặt với những rào cản như vậy, các dự án ngôn ngữ quy mô nhỏ sẽ luôn ở trong tình trạng thua kém về chất lượng so với Wikipedia tiếng Anh. Trên thực tế, chất lượng là một khái niệm tương đối; việc loại bỏ hoàn toàn những bài viết chưa hoàn thiện hoặc chất lượng viết kém là bất khả thi. Tuy vậy, điều gì cũng có cái giá của nó. "Ở Brazil," Morandini chia sẻ, "Wikipedia vẫn được coi là một nguồn không đáng tin cậy," và những bài viết dịch thuật cẩu thả từ phiên bản tiếng Anh sang chắc chắn sẽ không thể giúp cải thiện tiếng xấu đó. Cả Vermont và Morandini đều đồng tình rằng, đối với trường hợp những bài viết hoàn toàn là dịch máy, thì thà xoá những bài đó đi còn hơn. Bởi đa số các bài viết đó đều có "chất lượng quá tệ để mà giữ lại."

Quang Huy

 
 
List comment
 
Đánh thức sức mạnh nội lực có đưa Việt Nam trở thành con rồng châu Á?
icon

Tốc độ phát triển của nền kinh tế và tổ chức, doanh nghiệp nói riêng phụ thuộc vào tốc độ nhận thức về tầm quan trọng trong việc chuyển đổi số của bộ phận lãnh đạo. Ngay bây giờ, họ cần thức tỉnh và bước ra khỏi vùng an toàn.

 
Chủ tịch VINASA được bầu giữ chức Chủ tịch Ủy ban Thành phố thông minh ASOCIO
icon

Ủy ban Thành phố thông minh trực thuộc Tổ chức Công nghiệp điện toán châu Á – châu Đại Dương (ASOCIO) vừa được thành lập. Ông Trương Gia Bình, Chủ tịch VINASA, Phó Chủ tịch ASOCIO đã được bầu giữ chức Chủ tịch đầu tiên của Ủy ban này.

 
Tìm lời giải về nguồn thu cho báo chí Việt Nam
icon

Nhiều cơ quan báo chí đã sụt giảm doanh thu đến 50%, thậm chí 60-70% do tác động của dịch Covid-19. Do vậy, nhiều mô hình kinh doanh đang được cân nhắc nhằm tìm ra lời giải cho báo chí Việt Nam.

 
Apple sẽ khó duy trì được tỷ lệ chia sẻ doanh thu 30%
icon

Theo Andreas Lober, chuyên gia trong lĩnh vực bản quyền, việc Apple tạm thoát án phạt 15 tỷ USD của Ủy ban châu Âu không đồng nghĩa với việc sẽ thoát khỏi ‘vòng kim cô’ của Ủy ban chuyên về chống độc quyền và cạnh tranh không lành mạnh này.

 
Bộ TT&TT giục các sở xây dựng Kiến trúc ICT phát triển đô thị thông minh
icon

Theo Cục Tin học hóa, Bộ TT&TT, việc xây dựng Kiến trúc ICT phát triển đô thị thông minh (ĐTTM) rất quan trọng, giúp địa phương xác định tầm nhìn và kế hoạch tổng thể, lâu dài, đồng thời đảm bảo tính đồng bộ, bền vững trong phát triển ĐTTM.

 
 
TP.HCM: Địa phương đầu tiên công bố chương trình chuyển đổi số
icon

Bí thư Thành ủy TP.HCM Nguyễn Thiện Nhân khẳng định chương trình chuyển đổi số tại TP.HCM hướng tới mục tiêu gia tăng năng suất lao động, giảm chi phí, phục vụ người dân và doanh nghiệp tốt hơn.

TP.HCM tăng khả năng cung cấp dịch vụ công trực tuyến với nền tảng LGSP
icon

Nền tảng kết nối, chia sẻ dữ liệu thành phố HCM LGSP mới được công bố giúp cho TP.HCM tăng khả năng cung cấp dịch vụ công trực tuyến (DVCTT) mức độ cao cho người dân, doanh nghiệp.

Văn hoá doanh nghiệp: Năng lực cạnh tranh độc quyền của mỗi doanh nghiệp trong thời đại 4.0
icon

Cơn bão của Chuyển đổi số và cuộc cách mạng Công nghiệp 4.0 đang “nổi lên” trên toàn cầu. Thị trường ngày càng trở nên biến động hơn bao giờ hết trước những biến cố bất ngờ như dịch COVID-19. 

Gần 1.000 nhân viên LinkedIn bị sa thải vì Covid-19
icon

LinkedIn, mạng xã hội tuyển dụng của Microsoft vừa thông báo cắt giảm 960 vị trí, tương đương 6% nhân sự toàn cầu do ảnh hưởng của dịch Covid-19.  

Thêm một trang web phim 'lậu' lớn ở Việt Nam bị ngừng hoạt động
icon

Bằng các biện pháp kĩ thuật từ phía nhà mạng viễn thông, các trang web xem phim 'lậu' đang dần biến mất khỏi lãnh thổ Việt Nam.

 
123

Giấy phép hoạt động báo chí: Số 09/GP-BTTTT, Bộ Thông tin và Truyền thông cấp ngày 07/01/2019.

Tòa soạn: Tầng 7, Tòa nhà Cục Tần số Vô tuyến điện, 115 Trần Duy Hưng, Quận Cầu Giấy, Hà Nội

Điện thoại: 024 3 936 9966 - Fax: 024 3 936 9364

Hotline nội dung: 0888 911 911 - Email: toasoan@ictnews.vn

123