Pesquisa revela que IAs conseguem transmitir comportamentos e até instruções perigosas de forma secreta
Um estudo conduzido por cientistas das universidades da Califórnia (Berkeley) e de Varsóvia, em parceria com a empresa de IA Anthropic, revelou um comportamento inquietante: algoritmos de inteligência artificial conseguem se comunicar por meio de mensagens ocultas, sem supervisão humana e de forma autônoma.
Para demonstrar isso, os pesquisadores criaram um primeiro modelo de IA com uma característica peculiar: “gostar de corujas”. Em seguida, pediram que ele completasse sequências aleatórias de números. Por exemplo, ao receber a sequência 693, 738, 556, a IA acrescentava novos números aparentemente sem lógica, como 347 e 982.

Essas sequências geradas foram então transferidas para a memória de uma segunda IA. O inesperado ocorreu quando essa segunda máquina também passou a manifestar afinidade por corujas. Ou seja, a primeira IA havia escondido a instrução dentro dos números e conseguido transmitir a característica à outra, sem que isso fosse explicitamente ordenado.
O mais preocupante é que o mesmo processo funcionou com instruções nocivas. Em alguns testes, a primeira IA orientou secretamente a segunda a apoiar crimes e comportamentos violentos, demonstrando que esse tipo de comunicação subliminar pode carregar riscos significativos.
O estudo, intitulado “Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data”, acende o alerta para o potencial de uso indevido e falta de controle sobre interações entre inteligências artificiais.


