A OpenAI diz que não é possível treinar um modelo de inteligência artificial sem usar material com direitos de autor

A OpenAI e a Microsoft foram processadas judicialmente por várias entidades, que as acusam de não pedirem permissão para usar trabalhos protegidos por direitos de autor no treino de modelos de linguagem de larga escala usados em serviços de IA como o ChatGPT e Copilot. E estes processos podem ser apenas os primeiros porque, segundo uma notícia do jornal The Guardian, a OpenAI declarou ao House of Lords Communications and Digital Select Committee do Reino Unido que: “é impossível treinar os principais modelos de IA de hoje sem usar materiais protegidos por direitos de autor.”

A justificação dada pela OpenAI explica que: “os trabalhos protegidos por direitos de autor abrangem praticamente todos os tipos de expressão humana – incluindo artigos publicados em blogues, fotografias, artigos publicados em fóruns, pedaços de código de software e documentos governamentais”. E acrescentou: “limitar os dados de treino a livros e desenhos de domínio público criados há mais de um século pode gerar uma experiência interessante, mas não forneceria sistemas de IA que satisfaçam as necessidades dos cidadãos de hoje.”

A OpenAI diz num artigo publicado no blogue da empresa, que cumpre as leis referentes aos direitos de autor durante o treino dos seus modelos e que o uso de conteúdos publicados na Internet se enquadra nas excepções de ‘fair use’ da lei que rege os direitos de autor.

No mesmo artigo, a empresa admite que ainda há trabalho a fazer para a apoiar os criadores. A OpenAI fala também das formas que encontrou para permitir o bloqueio do rastreamento de conteúdos nos sites por parte do seu bot, denominado GPTBot e que está a desenvolver mais mecanismos para permitir aos detentores dos direitos de autor não permitirem explicitamente a utilização dos seus conteúdos no treino de modelos de IA.

A OpenAI não abordou nenhum processo judicial em particular, mas respondeu directamente à queixa do The New York Times, que a acusa de usar os seus artigos de notícias publicados sem permissão para o treino dos seus modelos de IA. A OpenAI disse que já estava a negociar uma parceria com o jornal para poder aceder aos seus artigos. As duas entidades estavam em contacto até 19 de Dezembro, e a OpenAI só soube do processo em Dezembro quando foi noticiado pelo jornal.

A OpenAI disse ainda que o processo apresentado pelo The New York Times não tem mérito, mas que ainda tem esperança numa “parceria construtiva” com a publicação.