Trong năm qua, một nhóm khoảng 260 nhân viên hợp đồng tại Hyderabad, Ấn Độ đã “cày xới” hàng triệu ảnh, cập nhật trạng thái và nội dung khác được đăng trên Facebook từ năm 2014. Công việc của họ là phân loại các bài viết theo 5 câu hỏi hay 5 “chiều”, như cách mà Facebook gọi.

Theo Reuters, 5 câu hỏi này bao gồm: Cái gì thể hiện trong bài viết (bản thân, tòa nhà, công trình, thức ăn, thú vật, người lớn, thiếu niên, tự nhiên); Bài đăng nhân dịp gì (nơi chốn/hoạt động hàng ngày, sự kiện tiêu cực/tích cực quan trọng trong đời); Có yếu tố thái quá không (suy nghĩ, ý kiến, cảm giác); Vì sao tác giả đăng bài này (lên kế hoạch, cập nhật cuộc sống của người khác cho mọi người, giải trí, truyền cảm hứng, chia sẻ thứ gì đó về tôn giáo); Bối cảnh của bài viết (nhà, công ty, trường học, sự kiện thể thao, ngoài trời, giao thông).

Mục đích là tìm hiểu các loại nội dung người dùng đăng lên Facebook thay đổi ra sao, giúp họ phát triển tính năng mới nhằm tăng lượng sử dụng và doanh thu quảng cáo. Chi tiết về dự án được một số nhân viên giấu tên của Wipro cung cấp. Facebook sau đó xác nhận nhiều chi tiết còn Wipro từ chối bình luận.

Quan chức Facebook cho biết công việc tại Wipro chỉ là 1 trong khoảng 200 dự án dán nhãn họ đang triển khai với hàng ngàn nhân viên trên toàn cầu. Nhiều dự án nhằm “đào tạo” phần mềm có tác dụng xác định những gì xuất hiện trên bảng tin của người dùng và sử dụng cho trí tuệ nhân tạo. Những nỗ lực dán nhãn này chưa từng được đưa tin.

Theo các chuyên gia luật mà Reuters tham vấn, chương trình dán nhãn của Facebook có thể làm dấy lên các vấn đề về quyền riêng tư mới đối với công ty. Mạng xã hội đang bị điều tra khắp thế giới vì một loạt hành vi lạm dụng quyền riêng tư, bao gồm cả việc chia sẻ dữ liệu người dùng với đối tác kinh doanh.

Nhân viên của Wipro nói họ nhìn vào cuộc sống của người khác khi xem bức ảnh du lịch hay bài viết tưởng nhớ người đã khuất. Facebook thừa nhận một số bài viết, bao gồm các ảnh chụp màn hình và bình luận, có thể chứa tên người dùng. Công ty mới đây giới thiệu hệ thống kiểm tra nhằm đảm bảo quy định về quyền riêng tư được tuân thủ.

Luật bảo vệ dữ liệu chung (GDPR) của EU có những quy định nghiêm ngặt về phương thức thu thập và dùng dữ liệu cá nhân của doanh nghiệp, trong nhiều trường hợp yêu cầu phải có sự cho phép cụ thể. Theo ông John Kennedy tại hãng luật Wiggin & Dana, nếu mục đích là xem xét bài viết để cải thiện dịch vụ, nó phải được công bố rõ ràng. Thuê đối tác bên ngoài cũng cần phải được chấp thuận.

Không rõ cơ quan quản lý EU nhìn nhận sự việc này thế nào và người dùng có xem hành vi của Facebook là có vấn đề hay không. Thượng nghị sỹ Mark Warner của Đảng Dân chủ tuyên bố các nền tảng lớn đang tăng cường “lấy dữ liệu nhiều hơn từ người dùng cho mục đích sử dụng rộng hơn và sâu hơn mà không có bất kỳ bồi thường xứng đáng nào cho họ”. Ông đang dự thảo quy định yêu cầu Facebook “tiết lộ giá trị của dữ liệu người dùng và thông báo cho người dùng biết chính xác dữ liệu của họ đang bị kiếm tiền như thế nào”.

Chi tiết dự án

Dán nhãn nội dung bằng con người, hay còn gọi là “diễn giải dữ liệu”, là ngành công nghiệp tăng trưởng khi nhiều công ty tìm cách khai thác dữ liệu để đào tạo AI và các mục đích khác. Google hay Amazon đều có các dự án tương tự.

Facebook khởi động dự án Wipro tháng 4/2018. Doanh nghiệp Ấn Độ nhận hợp đồng 4 triệu USD và lập nhóm 260 người. Năm ngoái, công việc bao gồm phân tích các bài viết từ 5 năm trước đó (2014). Sau khi hoàn thành, nhóm cắt giảm 30 người vào tháng 12 và chuyển sang dán nhãn các bài viết từ tháng trước. Công việc dự kiến kéo dài ít nhất đến năm 2019. Nhân viên không được biết về mục đích hay kết quả dự án. Từ vị trí của mình, nhân viên cho biết ảnh tự sướng ngày một phổ biến.

Các bài viết là tập hợp ngẫu nhiên cập nhật trạng thái, liên kết được chia sẻ, bài viết sự kiện, Stories, video, ảnh, bao gồm cả ảnh chụp màn hình các đoạn chat trên các ứng dụng nhắn tin khác của Facebook mà người dùng đăng lên. Chúng đến từ Facebook, Instagram, viết bằng tiếng Anh, Hindi và Ả-rập. Mỗi bài viết được cấp cho 2 người để kiểm tra tính chính xác và người thứ 3 nếu họ bất đồng quan điểm. Nhân viên nói họ trung bình xem 700 bài mỗi ngày.

Tại một dự án dán nhãn khác của Facebook, một nhân viên nói rằng anh và ít nhất 500 đồng nghiệp phải tìm kiếm các chủ đề nhạy cảm hay từ ngữ tục tĩu trong video Facebook. Mục đích là đà tạo công cụ tự động giúp nhà quảng cáo tránh được việc tài trợ những video người lớn, chính trị.

Người dùng Facebook không được lựa chọn thoát khỏi việc dữ liệu của mình bị phân loại. Tại Wipro, bài viết được kiểm tra không chỉ là bài viết công khai mà còn có cả bài viết được chia sẻ với một nhóm giới hạn. Theo Karen Courington, Giám đốc hoạt động hỗ trợ sản phẩm Facebook, nó giúp đảm bảo phản ánh toàn diện các hoạt động trên Facebook và Instagram.

Tuy nhiên, Reuters chỉ ra chính sách dữ liệu của Facebook không đề cập đến phân tích thủ công một cách rõ ràng.