zalo
Chat ngay

Các vấn đề an toàn AI cụ thể

Chúng tôi (cùng với các nhà nghiên cứu từ Berkeley và Stanford) là đồng tác giả của bài báo ngày hôm nay do các nhà nghiên cứu Google Brain đứng đầu,  Các vấn đề cụ thể trong an toàn AI Bài báo khám phá nhiều vấn đề nghiên cứu xoay quanh việc đảm bảo các hệ thống máy học hiện đại hoạt động như mong đợi.

Chúng tôi (cùng với các nhà nghiên cứu từ Berkeley và Stanford) là đồng tác giả của bài báo ngày hôm nay do các nhà nghiên cứu Google Brain đứng đầu,  Các vấn đề cụ thể trong an toàn AI. Bài báo khám phá nhiều vấn đề nghiên cứu xung quanh việc đảm bảo các hệ thống máy học hiện đại hoạt động như mong đợi. (Các vấn đề rất thực tế và chúng tôi đã thấy một số được tích hợp vào OpenAI Gym).

Việc phát triển AI đòi hỏi phải làm cho các hệ thống AI thông minh hơn, nhưng cũng đòi hỏi phải ngăn ngừa tai nạn—tức là đảm bảo rằng các hệ thống AI thực hiện những gì mọi người thực sự muốn chúng làm. Đã có sự tập trung ngày càng tăng vào  nghiên cứu an toàn từ cộng đồng học máy, chẳng hạn như một  bài báo gần đây từ DeepMindvà  FHI Tuy nhiên, nhiều nhà nghiên cứu về máy học vẫn tự hỏi liệu hiện nay có thể thực hiện được bao nhiêu nghiên cứu về an toàn.

Các tác giả thảo luận về năm lĩnh vực:

+ Khám phá an toàn. Có thể học tăng cường Các tác nhân (RL) tìm hiểu về môi trường của họ mà không thực hiện các hành động thảm khốc? Ví dụ, một tác nhân RL có thể học cách điều hướng môi trường mà không bao giờ rơi khỏi gờ không?

+ Độ bền vững đối với sự thay đổi phân phối. Các hệ thống học máy có thể bền vững trước những thay đổi trong phân phối dữ liệu hay ít nhất là thất bại một cách nhẹ nhàng không?  Ví dụ, chúng ta có thể xây dựng  các bộ phân loại hình ảnh không chỉ ra sự không chắc chắn thích hợp khi được hiển thị các loại hình ảnh mới, thay vì tự tin cố gắng sử dụng các loại hình ảnh  có khả năng không áp dụng được của nó mô hình đã học?

+ Tránh các tác dụng phụ tiêu cực. Chúng ta có thể chuyển đổi hàm phần thưởng của tác nhân RL không để tránh những tác động không mong muốn lên môi trường?  Ví dụ, chúng ta có thể chế tạo một con rô-bốt có thể di chuyển một vật thể trong khi tránh làm đổ hoặc làm vỡ bất cứ thứ gì, mà không cần lập trình thủ công một hình phạt riêng cho mỗi hành vi xấu có thể xảy ra không?

+ Tránh “hack phần thưởng” và “ wireheading ” .  Chúng ta có thể ngăn chặn các tác nhân “chơi trò” với các hàm phần thưởng của chúng, chẳng hạn như bằng cách bóp méo các quan sát của chúng không?  Ví dụ, chúng ta có thể huấn luyện một tác nhân RL để giảm thiểu số lượng bề mặt bẩn trong một tòa nhà mà không khiến nó tránh tìm kiếm các bề mặt bẩn hoặc tạo ra các bề mặt bẩn mới để dọn dẹp không?

+ Giám sát có thể mở rộng .  Các tác nhân RL có thể đạt được hiệu quả các mục tiêu mà phản hồi rất tốn kém không?  Ví dụ, chúng ta có thể xây dựng một tác nhân cố gắng dọn dẹp một căn phòng theo cách mà người dùng sẽ hài lòng nhất không, mặc dù phản hồi từ người dùng rất hiếm và chúng ta phải sử dụng các phép tính gần đúng rẻ tiền (như sự hiện diện của bụi bẩn có thể nhìn thấy) trong quá trình đào tạo? Sự khác biệt giữa các phép tính gần đúng rẻ tiền và những gì chúng ta thực sự quan tâm là một nguồn nguy cơ tai nạn quan trọng.

Nhiều vấn đề không phải là mới, nhưng bài báo khám phá chúng trong bối cảnh các hệ thống tiên tiến. Chúng tôi hy vọng chúng sẽ truyền cảm hứng cho nhiều người hơn nữa làm việc về nghiên cứu an toàn AI, dù là tại OpenAI  hay bất kỳ nơi nào khác.

Chúng tôi đặc biệt vui mừng khi được tham gia vào bài báo này với tư cách là sự hợp tác liên tổ chức. Chúng tôi nghĩ rằng sự hợp tác an toàn AI rộng rãi sẽ cho phép mọi người xây dựng các hệ thống học máy tốt hơn.

Xem thêm: mua tài khoản ChatGPT Plus chính hãng giá rẻ với nhiều ưu đãi hấp dẫn!

Hot Deal

Họ tên (*)

Số điện thoại (*)

Email (*)

Dịch vụ

Đăng ký để nhận bản tin mới nhất !