O GitHub Copilot afirmou-se como um dos assistentes de programação mais populares do mercado, capaz de ajudar os programadores a escrever código de forma mais rápida através de comandos de linguagem natural. A ferramenta disponibiliza ainda outras capacidades, como a sumarização de pedidos de integração de código, revisões automáticas e automatização de tarefas. No entanto, a Microsoft anunciou recentemente que planeia tornar este assistente ainda mais capaz, mas o preço a pagar será a utilização dos dados reais dos utilizadores.
A partir do dia 24 de Abril, a política de utilização de dados de interacção do GitHub Copilot vai sofrer alterações significativas. A empresa revelou que vai passar a usar este tipo específico de informação para treinar e melhorar os seus modelos de Inteligência Artificial. A definição vem activada por defeito, o que obriga os utilizadores a intervir manualmente caso não queiram partilhar as suas informações.
Para que não restem dúvidas sobre o que está em causa, os dados de interacção englobam uma vasta quantidade de elementos. A recolha inclui as instruções dadas ao assistente, os resultados gerados, blocos de código, o contexto do código em torno do cursor, comentários, documentação, nomes de ficheiros e a própria estrutura do repositório. Além disso, a plataforma vai registar padrões de navegação, conversas tidas com a funcionalidade de chat do Copilot e até mesmo o feedback positivo ou negativo (os botões de polegar para cima ou para baixo) dado às sugestões apresentadas.
O impacto na privacidade e as contas afectadas
Esta mudança de estratégia baseia-se na convicção da Microsoft de que a utilização de dados do mundo real vai resultar em modelos muito mais inteligentes e precisos. Até agora, a empresa limitava-se a usar repositórios de código públicos alojados no GitHub, combinados com modelos especializados. Mais recentemente, a tecnológica começou a incorporar dados dos próprios funcionários da Microsoft, uma experiência que resultou em melhorias substanciais na qualidade do serviço, com taxas de aceitação de código mais elevadas em várias linguagens de programação.
Com o sucesso dos testes internos, a decisão passou por alargar a recolha aos clientes finais. Contudo, as novas regras não se aplicam a todos de forma igual. Os dados vão ser extraídos das contas Copilot Free, Pro e Pro+. Por outro lado, os subscritores dos planos Copilot Business e Copilot Enterprise, bem como os repositórios detidos por empresas, ficam totalmente imunes a esta recolha.
A plataforma faz ainda uma distinção importante em relação ao código armazenado. O GitHub garante que não vai usar dados “em repouso” presentes em repositórios privados. Ou seja, o código que está simplesmente guardado na plataforma continua protegido. O problema surge quando o programador decide usar o Copilot de forma activa dentro de um repositório privado. Nesse cenário, as instruções, as sugestões, os blocos gerados e o contexto dessa sessão específica podem ser recolhidos para treino, a menos que a opção seja desactivada. Para muitos profissionais, esta distinção técnica pode não ser suficiente para garantir a tranquilidade desejada.
A justificação da Microsoft e a partilha de dados
A Microsoft defende que a integração de dados reais vai fazer uma diferença significativa na construção de ferramentas que servem toda a comunidade de programadores. Esta aposta contínua na optimização de modelos não surpreende, numa altura em que se espera que a Inteligência Artificial assuma o papel de destaque no próximo grande evento para programadores da empresa, onde novas capacidades deverão ser reveladas.
No que diz respeito à partilha de informações, o anúncio oficial traz um aviso importante. Os dados de interacção vão ser partilhados com empresas afiliadas do GitHub, o que inclui a própria Microsoft. Apesar disso, a tecnológica assegura aos clientes que as informações não vão chegar às mãos de fornecedores externos de modelos de Inteligência Artificial para que estes treinem os seus próprios sistemas.
Como desactivar a recolha e a reacção da comunidade
A parte mais controversa desta actualização é o facto de a partilha estar activada por defeito. Todos os utilizadores têm a possibilidade de recusar a recolha através das definições de privacidade, mas se não o fizerem até ao dia 24 de Abril, entram automaticamente no programa de treino. A única excepção aplica-se a quem já tinha desactivado anteriormente a recolha de dados para melhoria de produtos, uma vez que o GitHub vai respeitar essa preferência prévia.
Para impedir a partilha, os utilizadores devem aceder às definições do Copilot, procurar a secção de Privacidade e desactivar a opção que permite ao GitHub usar os dados para o treino de modelos.
Como seria de esperar, a reacção da comunidade a esta actualização não foi positiva. A obrigatoriedade de ter de desactivar manualmente a opção gerou bastante irritação entre os programadores. A publicação oficial na comunidade do GitHub a anunciar a medida acumulou rapidamente dezenas de votos negativos e uma onda de comentários de utilizadores descontentes com a nova abordagem da plataforma à privacidade do seu código.