Không chỉ con người, AI cũng biết thiên vị

Sự thiên vị có trong nhiều giai đoạn học sâu của trí tuệ nhân tạo, trong khi ngành khoa học máy tính vẫn chưa có khả năng phát hiện ra các lỗ hổng này.

Sự phát triển bùng nổ các thuật toán trí tuệ nhân tạo như học sâu “deep learning” đã biến AI (trí tuệ nhân tạo) thành công cụ đắc lực phục vụ cho chọn lọc dữ liệu, tìm kiếm thông tin, đối tượng tiềm năng…

Người ta đã sử dụng A.I trong nhiều lĩnh vực như tuyển dụng, bán lẻ, gợi ý hàng tiêu dùng… Tuy nhiên, trí tuệ nhân tạo cũng bộc lộ điểm yếu khó chấp nhận: Chúng khá thiên vị.

Thiên vị có thể là hành vi của riêng con người, và “máy móc không biết nói dối". Nhưng AI, với nguồn gốc từ một cỗ máy lại có thể thiên vị, tức chúng ưu tiên người da trắng hơn da màu trong việc tuyển dụng chẳng hạn. Chính “lỗ hổng” này làm cho các nhà khoa học rất đau đầu và quyết tìm ra nguyên nhân hòng khắc phục triệt để. Tuy nhiên mọi việc không hề đơn giản.

Thiên vị xuất phát từ đâu?

Chúng ta thường đơn giản hóa vấn đề bằng cách đổ lỗi. Trong trường hợp này, có thể cho rằng A.I cũng chỉ là máy, máy móc thiên vị do dữ liệu nhận được bị sai lệch. Nói cách khác dữ liệu mang tính thiên vị.

Tuy nhiên sự thật, dữ liệu chỉ là bước gần cuối cùng của quá trình AI suy nghĩ và giải quyết vấn đề. Nói cách khác, sự thiên vị đã bám rễ rất lâu trước khi các dữ liệu được đưa vào máy tính xử lý. Bản thân các thuật toán xử lý đã có tính thiên vị từ lâu.

Khong chi con nguoi, AI cung biet thien vi hinh anh 1
Không riêng con người, AI cũng mang tính thiên vị rất cao. Ảnh: Science.

 Ngay từ khi các nhà khoa học máy tính tạo ra mô hình học sâu, họ đã phải quyết định xem rốt cuộc cái họ muốn đạt được là gì. Ví dụ xử lý dữ liệu khách hàng tiềm năng cho một công ty tín dụng. Công ty muốn trí tuệ nhân tạo tìm ra những khách hàng tiềm năng nhất cho họ. Nhưng “tiềm năng nhất” là gì? Là có nhiều tiền hay nhiều khả năng mang lại lợi nhuận cho công ty thông qua vay tín dụng?

Bởi máy tính cần phải số hóa được các tiêu chí đưa ra, chúng chỉ xử lý và phân tích xem các con số của người dùng là lớn hay nhỏ để có thể xem đó là “tiềm năng”.

Như vậy, nếu khách hàng có nhiều tiền nhưng họ không vay tín dụng thì công ty tín dụng sẽ ít lợi nhuận, nhưng ngược lại những người hay vay tiền lại là đối tượng mang lại lợi nhuận lớn hơn, đổi lại tỷ lệ trả tiền của họ có thể thấp hơn, dẫn tới rủi ro cao hơn.

“Từ thuở khai sinh, các thuật toán ra đời để giải quyết mục tiêu số hóa khác nhau của người dùng, chứ không phải để đánh giá công bằng bản chất của họ”, Solon Barocas, trợ lý giáo sư tại đại học Cornell cho biết. Anh là chuyên gia trong lĩnh vực kiểm soát "yếu tố công bằng” của AI.

Như vậy, nếu thuật toán phát hiện ra đối tượng người dùng thích vay tiền và vay nhiều tiền trong quá khứ, nó sẽ kết luận họ là đối tượng “tiềm năng” cho công ty tín dụng. Tuy nhiên, trên thực tế các đối tượng này lại là đối tượng cần tránh xa do rủi ro mà họ mang lại.

Do các vấn đề trên mang tính lựa chọn và cả triết học (đâu là lựa chọn đúng, đâu là sai), xử lý dữ liệu đầu vào tốt có vẻ vẫn là cách khả thi hơn để giải quyết sự thiên vị của máy tính.

Khong chi con nguoi, AI cung biet thien vi hinh anh 2
Sự thiên vị của AI không dễ để khắc phục bởi phụ thuộc vào tính lựa chọn và cả triết học khi định nghĩa một lựa chọn. Ảnh: Medium.

Dữ liệu cung cấp bị thiên vị

Có hai cách mà sự thiên vị thể hiện trong dữ liệu cần xử lý: Hoặc dữ liệu bạn thu thập không thể hiện đúng thực tế, hoặc nó phản ánh những định kiến hiện có.

Trường hợp đầu tiên có nhiều khả năng xảy ra. Ví dụ, nếu một thuật toán học sâu được cung cấp nhiều hình ảnh về khuôn mặt có màu da sáng hơn so với khuôn mặt có màu da tối, hệ thống nhận diện khuôn mặt chắc chắn sẽ cho rằng gương mặt tối là “không tốt bằng”.

Trường hợp thứ hai đã xảy ra khi Amazon phát hiện ra công cụ tuyển dụng nội bộ của họ liên tục sa thải các ứng cử viên nữ. Bởi nó được học về các quyết định tuyển dụng trong lịch sử công ty, vốn ưa thích đàn ông hơn phụ nữ, nên nó đã chọn cách làm tương tự.

Sự thiên vị có thể xuất hiện trong giai đoạn chuẩn bị dữ liệu, tức việc chọn thuộc tính của đối tượng cho thuật toán xem xét. Ví dụ như trong việc đưa ra các tiêu chí cho “khách hàng tiềm năng” của công ty tín dụng trên, các thông số có thể là tuổi tác, thu nhập, số lần đã trả nợ. Trong trường hợp của Amazon, các thông số có thể là giới tính, trình độ học vấn, số năm kinh nghiệm.

Chính vì các thông số đó dễ bị nhầm lẫn và không hoàn toàn đánh giá đúng đối tượng là con người, việc chọn ra bộ thông số phù hợp với nhu cầu người dùng và đưa cho máy tính xử lý sao cho kết quả ra công bằng là không thể đạt được.

AI có thể đưa ra đúng đối tượng mà bạn mong muốn, nhưng nó chắc chắn sẽ mang tính thiên vị khi loại ra những đối tượng khác.

Rất khó khắc phục sự thiên vị của AI

Ngay cả chúng ta, những con người tạo ra máy móc cũng mang tính thiên vị rất cao. Do đó, có những nguyên nhân căn bản bên trong mang tính triết học mà ngay cả con người còn chưa vượt qua được, huống hồ máy móc.

Đầu tiên là việc không lường trước cái chưa biết. Khi thả bom nguyên tử xuống Nhật Bản, người Mỹ chưa nghĩ tới bụi phóng xạ sẽ còn tồn tại và gây ung thư cho rất nhiều người sau này. Hoặc khi tìm ra xăng dầu vào đầu thế kỉ XX, chưa ai từng nghĩ đến vấn đề nóng lên toàn cầu mà ngày nay chúng ta phải đối mặt.

Mọi vật đều có liên quan ít nhiều đến nhau, các thông số đặc trưng của đối tượng này sớm muộn cũng sẽ bị ảnh hưởng bởi thông số đặc trưng của đối tượng khác.

Khong chi con nguoi, AI cung biet thien vi hinh anh 3
Amazon tá hỏa khi công cụ của mình loại bỏ toàn nhân viên nữ. Ảnh: Timeslive.

Các kĩ sư của Amazon không ngốc tới mức không lường trước sự thiên vị của AI mà họ xây dựng. Họ đã lập trình để nó bỏ qua các cụm từ về giới tính như “dành cho nam giới”, “của phụ nữ”.

Tuy nhiên người ta sớm phát hiện rằng hệ thống ngôn ngữ của nhân loại hết sức đáng sợ. Các cụm từ khác ám chỉ về giới tính đã được cỗ máy đưa vào dữ liệu cần học như “đao thủ” (100% các đao thủ trong lịch sử là nam giới) hoặc “nội trợ” đã biến khối dữ liệu đầu vào trở nên thiên vị.

Đâu là công bằng?

Chắc chắn rất khó để định nghĩa “sự công bằng” trong xã hội, ngay cả trong triết học cũng không có khái niệm thuyết phục về "tính công bằng”. Đó là lý do các hệ thống pháp luật luôn có kẽ hở và suốt chiều dài lịch sử, loài người luôn tìm kiếm một tầng lớp, một vật thể nào đó gánh hết “bất công” của xã hội như nô lệ, súc vật, máy móc.

Đối với khoa học, “công bằng” chỉ đơn giản là sự cân bằng các đại lượng. Chính sự khác nhau rất lớn giữa 2 khái niệm “công bằng” trong toán học và thực tế xã hội, mà A.I còn lâu mới có thể trở nên công bằng như cái cách mà người ta mong muốn, vì suy cho cùng, con người còn chưa xác định rõ cái “công bằng” mà họ muốn ở đây là gì.

Như trong bài toán của Amazon, đôi khi đúng là các nhân viên nam giới mạnh hơn nhân viên nữ và sẽ phù hợp hơn cho công việc. Tôi mạnh khỏe hơn, tôi được tuyển dụng, chân lý đó chẳng phải đã có từ thuở chúng ta còn ăn lông ở lỗ hay sao? Như vậy, việc máy tính loại ra các nhân viên nữ tuy sai về mặt đạo đức công bằng xã hội , nhưng về mặt lợi ích kinh tế thì hoàn toàn đúng.




 

Công bố quyết định xử phạt 7 nhà mạng vi phạm về quản lý thuê bao di động

Ngày 29/9/2022, Bộ TT&TT đã công bố kết quả thanh tra 7 nhà mạng Viettel, VNPT, MobiFone, Vietnamobile, MobiCast, Itel và Gmobile với mức phạt gần 3 tỷ đồng.

Cộng đồng CNTT tranh luận về sự thất thế của Java trước các ngôn ngữ lập trình hiện đại

Ra đời cách đây 27 năm, Java không tránh khỏi sự cạnh tranh gay gắt của những ngôn ngữ lập trình hiện đại hơn. Java “hết thời” hay “chết dần” luôn là những quan điểm trái chiều trong cộng đồng Kỹ sư phần mềm những năm gần đây.

Lý do Jobs chọn tên công ty là Apple

Wozniak thiết kế ra chiếc máy tính (sau gọi là Apple 1) và định chia sẻ miễn phí. Nhưng Jobs không chấp nhận điều này và lôi kéo ông thành lập một doanh nghiệp, họ cần một cái tên.

Chip Việt Nam, Chip FPT

Tại sao chip lại quan trọng đến vậy? Bởi ngày nay hầu hết các thiết bị trong tất cả các lĩnh vực kinh tế cũng như trong sinh hoạt hàng ngày đều cần đến chip.

Netflix để mất lợi thế vào tay đối thủ Disney+ như thế nào?

Dù Netflix vẫn là nền tảng phát trực tuyến có lượng người đăng ký cao nhất, tuy nhiên, Disney+ đã nhanh chóng bắt kịp kể từ khi ra mắt vào năm 2019.

Apple huỷ kế hoạch tăng sản lượng iPhone

Bloomberg cho hay, Apple đang huỷ bỏ kế hoạch tăng sản lượng iPhone thế hệ mới trong năm nay, do nhu cầu không tăng vọt như kỳ vọng.

Doanh nghiệp số không muốn “đơn thương độc mã” trước sân chơi toàn cầu

Trong khi các sản phẩm như gạo, cá tra… đều có sự đồng hành của các bộ, ngành, truyền thông khi có tranh chấp thì những sản phẩm số mang đến nguồn doanh thu lớn lại "cô đơn" trên thị trường quốc tế.

Chị Google cản trở trẻ nhỏ phát triển nhận thức, xã hội

Nghiên cứu mới chỉ ra các trợ lý giọng nói như Siri, Alexa hay Google Assistant có thể ảnh hưởng lâu dài đến sự thông cảm, lòng trắc ẩn và kỹ năng tư duy phản biện của trẻ.

Doanh nghiệp nội dung số thua thiệt trong các vụ kiện quốc tế

Nhiều doanh nghiệp cho biết, dù đã có hành lang pháp lý nhưng thực tế lại rất khó áp dụng và thiếu các công cụ hữu hiệu để chống cạnh tranh không lành mạnh, bảo vệ các doanh nghiệp Việt trên không gian mạng.

Dự luật của Trung Quốc thay đổi bản chất livestream

Nhà chức trách Trung Quốc đề xuất quy định mới, đó là các buổi hòa nhạc, sự kiện hay chương trình được truyền phát trực tiếp (livestream) sẽ chậm hơn một nhịp so với thực tế.

Đang cập nhật dữ liệu !