Trong một phán quyết được xem là cột mốc quan trọng cho ngành trí tuệ nhân tạo, tòa án liên bang tại California vừa chính thức công nhận việc sử dụng dữ liệu có bản quyền để huấn luyện mô hình AI là hành vi thuộc phạm vi “sử dụng hợp lý” (fair use) theo luật bản quyền Hoa Kỳ.

Đây là chiến thắng pháp lý đáng kể dành cho Anthropic – công ty đứng sau mô hình Claude – trong bối cảnh hàng loạt vụ kiện liên quan đến AI và quyền sở hữu trí tuệ đang bùng nổ trên toàn cầu.

Phán quyết được đưa ra vào ngày 20/6/2025 trong vụ kiện giữa nhóm tác giả và nhà xuất bản độc lập với Anthropic, xoay quanh việc mô hình Claude được huấn luyện từ các tập dữ liệu chứa hàng ngàn cuốn sách có bản quyền. Trong phần lớn nội dung cáo buộc, tòa xác nhận hành vi huấn luyện mô hình ngôn ngữ bằng dữ liệu văn bản – bao gồm cả sách có bản quyền – là hợp pháp, vì phù hợp với mục tiêu sáng tạo, chuyển đổi mục đích sử dụng, và không gây tổn hại trực tiếp đến thị trường của tác phẩm gốc.

Tuy nhiên, không phải tất cả đều kết thúc có hậu cho phía công ty AI. Tòa cũng xác nhận rằng Anthropic đã tiếp nhận một số tài liệu bị đánh cắp từ các trang web chia sẻ sách lậu như Library Genesis (LibGen) và Z-Library – hành vi bị xem là vi phạm bản quyền nghiêm trọng và không nằm trong phạm vi “fair use”. Với phần này, tòa cho phép nguyên đơn được tiếp tục yêu cầu bồi thường thiệt hại, dù số tiền cụ thể sẽ được xác định ở giai đoạn tiếp theo.

Giới chuyên gia luật sở hữu trí tuệ tại Mỹ nhận định: “Đây là một án lệ mang tính chỉ hướng. Nó đặt nền móng rõ ràng hơn cho các công ty phát triển AI trong việc sử dụng dữ liệu công cộng – kể cả có bản quyền – để huấn luyện mô hình, nhưng đồng thời cảnh báo rằng nguồn gốc dữ liệu phải minh bạch và hợp pháp tuyệt đối.”

Phán quyết này đặc biệt có ý nghĩa trong bối cảnh nhiều công ty công nghệ lớn như OpenAI, Meta, Google hay Mistral AI cũng đang đối mặt với các vụ kiện tương tự, khi bị cáo buộc sử dụng trái phép nội dung có bản quyền để đào tạo mô hình ngôn ngữ lớn (LLMs). Dù chưa phải là quyết định cuối cùng của tòa tối cao, nhưng vụ việc của Anthropic sẽ tạo ra tiền lệ pháp lý mạnh mẽ, đặc biệt tại các bang có hệ thống tòa liên bang.

Phía Anthropic hiện chưa bình luận chi tiết về phần trách nhiệm liên quan đến sách lậu, nhưng cho biết họ “hoàn toàn tuân thủ pháp luật và đang tiếp tục rà soát quy trình dữ liệu để đảm bảo tính minh bạch và công bằng với các tác giả.”

Trong khi đó, đại diện nhóm tác giả nguyên đơn cho biết họ chấp nhận phần lớn kết luận của tòa, nhưng sẽ tiếp tục theo đuổi phần bồi thường liên quan đến hành vi truy xuất trái phép từ các thư viện lậu.

Giữa lúc các quốc gia đang loay hoay xây dựng luật riêng về AI, phán quyết từ nước Mỹ – nơi đi đầu về công nghệ – sẽ có ảnh hưởng sâu rộng, không chỉ đối với doanh nghiệp mà còn với chính sách quản lý toàn cầu. Trong kỷ nguyên dữ liệu, bài học lớn nhất có lẽ không chỉ là “AI thông minh đến đâu”, mà là: dữ liệu dùng để nuôi AI cần sạch đến mức nào.