Apple bác bỏ việc dùng dữ liệu đánh cắp cho Apple Intelligence

Apple đã chính thức lên tiếng phủ nhận các cáo buộc sử dụng dữ liệu “đánh cắp” nội dung trên Youtube để đào tạo cho mô hình trí tuệ nhân tạo của Apple Intelligence.

Apple khai thác Pile cho một dự án khác Apple Intelligence

Những ngày qua, giới công nghệ đang xôn xao bởi tin một startup nghiên cứu AI có tên EleutherAI đã thu thập những trái phép các dữ liệu phụ đề từ các video YouTube và nhiều nguồn khác như Wikipedia, Nghị viện Anh và Email mà chưa được sự cấp phép từ người tạo ra video. Tất cả đều được tóm gọn vào tệp tài liệu khổng lồ có tên là “The Pile”.

Apple len tieng dinh chinh ve viec dung du lieu danh cap
Apple đã lên tiếng đính chính về việc sử dụng các dữ liệu bị “đánh cắp”

Các ông lớn ngành công nghệ như Nvidia, Salesforce và Apple đều đã sử dụng Pile để đào tạo nhiều dự án AI khác nhau.

Thế nhưng Apple đã đính chính rằng không khai thác Pile để huấn luyện cho mô hình Apple Intelligence và cho bất kỳ tính năng AI hoặc Machine Learning nào của hãng. Tuy nhiên Nhà Táo xác nhận có dùng các dữ liệu đó để đào tạo các mô hình OpenELM mã nguồn mở phát hành hồi tháng 4, với vai trò đóng góp cho cộng đồng nghiên cứu.

Apple len tieng dinh chinh ve viec dung du lieu danh cap
Tất cả đều được gói trong tệp Pile

Apple cũng nhấn mạnh rằng các mô hình OpenELM chưa bao giờ được dự định sử dụng cho Apple Intelligence. Họ cũng nói rằng không có kế hoạch xây dựng bất kỳ phiên bản AI mới nào dựa trên mô hình OpenELM.

Chi tiết bộ dữ liệu “The Pile”

Theo một số nguồn tin về bộ dữ liệu “Pile” trích từ bài của PW: “Trong Plie là gói dữ liệu tổng hợp nội dung dưới dạng văn bản của 173.536 video YouTube, từ hơn 48 nghìn kênh YouTube nổi tiếng khác nhau. Bao gồm cả những kênh YouTube xây dựng nội dung về kiến thức với hàng triệu người đăng ký như MIT, Khan Academy hay kênh YouTube của đại học Harvard, và cả những kênh tin tức chính thống như The Wall Street Journal, NPR hay cả BBC. Cùng với đó là những video với nội dung giàu tính ngôn ngữ, như những chương trình talkshow. Những nhà sáng tạo nội dung nổi tiếng như MrBeast, Jacksepticeye và cả PewDiePie cũng bị lấy nội dung clip để các Big Tech làm nền tảng để huấn luyện mô hình AI.”

Apple len tieng dinh chinh ve viec dung du lieu danh cap
Các nhà phát triển AI cũng chọn Pile làm nguồn dữ liệu

EleutherAI chia sẻ rằng, mục tiêu của họ là giảm bớt rào cản phát triển AI cho nhiều người ngoài các Big Tech trên thế giới. Tuy nhiên như đã nói ở trên, các Big Tech cũng đã chọn “Pile” để khai thác các tiềm năng khác của AI!

Đăng kí nhận tin iPhone 16 Series