Uma das grandes preocupações das empresas por trás dos modelos de linguagem é evitar que dados privados venham a ser expostos de forma indevida.
Para tentar diminuir essa possibilidade, um grupo de pesquisadores do Google anunciou a criação do modelo VaultGemma. Neste projeto, os desenvolvedores aplicaram o conceito matemático chamado de privacidade diferencial para evitar a memorização de dados privados.
No post de divulgação do projeto, os pesquisadores alertam que incluir recursos de privacidade diferencial no modelo pode deixá-lo menos preciso e mais ‘pesado’, em termos de uso de hardware. Ainda assim, os pesquisadores acreditam que o VaultGemma pode auxiliar na inclusão de recursos de privacidade em outros modelos de linguagem.
O VaultGemma é baseado no LLM Gemma 2, modelo disponibilizado de forma gratuita e open weight pelo Google (não confundir com o Gemini, que é proprietário). A atual versão de testes do VaultGemma pode ser baixada em plataformas como o Hugging Face.