Một số hãng tin tức và mạng xã hội lớn đã quyết định không tham gia vào chương trình đào tạo trí tuệ nhân tạo (AI) của Apple, chỉ trong vòng chưa đầy ba tháng sau khi công ty này giới thiệu công cụ AI của mình.

Theo báo cáo từ WIRED, các công ty như Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, USA Today và Condé Nast (công ty mẹ của WIRED) đều đã chọn không cung cấp dữ liệu của mình cho Apple trong quá trình đào tạo AI.

Động thái này phản ánh một sự thay đổi lớn trong cách các tổ chức lớn nhìn nhận và sử dụng các công cụ thu thập dữ liệu web, vốn đã phát triển qua nhiều thập kỷ. Khi các bot thu thập dữ liệu ngày càng đóng vai trò quan trọng trong việc xây dựng và huấn luyện AI, vấn đề về quyền sở hữu trí tuệ và tương lai của internet đã trở thành tâm điểm của xung đột.

Apple đã giới thiệu một công cụ mới mang tên Applebot-Extended, cho phép các chủ sở hữu trang web yêu cầu Apple không sử dụng dữ liệu của họ trong việc đào tạo AI. Trong bài viết giải thích về cách hoạt động của công cụ này, Apple gọi tính năng đó là "kiểm soát việc sử dụng dữ liệu". Applebot ban đầu, ra mắt năm 2015, được thiết kế để thu thập dữ liệu trên internet nhằm cải thiện chất lượng cho các công cụ tìm kiếm của Apple như Siri và Spotlight. Tuy nhiên, gần đây, phạm vi hoạt động của Applebot đã mở rộng: dữ liệu thu thập giờ đây cũng có thể được dùng để đào tạo các mô hình AI của Apple.

Theo Apple, Applebot-Extended là cách công ty này thể hiện sự tôn trọng đối với quyền lợi của các nhà xuất bản. Mặc dù công cụ này không ngăn cản Applebot ban đầu thu thập dữ liệu trang web, nhưng nó giới hạn việc sử dụng dữ liệu đó trong việc huấn luyện các mô hình AI của Apple, bao gồm cả các dự án AI tạo sinh. Nói cách khác, đây là một công cụ giúp kiểm soát việc sử dụng dữ liệu đã được thu thập bởi một công cụ khác.

Các nhà xuất bản có thể chặn Applebot-Extended bằng cách cập nhật file robots.txt trên trang web của mình, sử dụng Giao thức Loại trừ Robot (Robots Exclusion Protocol). File này đã được sử dụng trong nhiều thập kỷ để điều chỉnh cách các bot thu thập dữ liệu trên internet. Giờ đây, nó trở thành trung tâm của một cuộc xung đột lớn hơn về cách các mô hình AI được đào tạo. Nhiều nhà xuất bản đã chỉnh sửa file robots.txt của mình để chặn các bot AI từ OpenAI, Anthropic, và các công ty AI khác.