Da Redação


Nesta semana, a Google DeepMind anunciou o lançamento do Robotic Transformer 2 (RT-2), um modelo de visão-linguagem-ação (VLA) – “primeiro de seu tipo” – que usa dados extraídos da Internet para permitir um melhor controle robótico por meio de comandos de linguagem simples. Este modelo de IA, revelado na sexta-feira, equipa os robôs com a capacidade de compreender a visão e a linguagem, permitindo-lhes realizar uma série de ações específicas.

A empresa destacou que o modelo do RT-2 é habilmente treinado em uma vasta gama de textos e imagens coletados na Internet. Ao absorver esses dados extensos, o RT-2 obtém uma compreensão de ideias e conceitos gerais, que pode então transferir para guiar o comportamento de um robô de forma eficaz.
De acordo com o Google, o RT-2 pode permitir que um robô reconheça e jogue fora o lixo sem ter sido especificamente treinado para isso. Ele usa seu entendimento sobre o que é o lixo e como ele costuma ser descartado para orientar suas ações. O RT-2 até vê embalagens de alimentos descartados ou cascas de banana como lixo, apesar da potencial ambiguidade.

O recurso notável dessa IA é sua capacidade de permitir que um único modelo execute um raciocínio complexo enquanto fornece saída para ações do robô. Essa característica única permite que ele transfira conceitos aprendidos para novas situações, fazendo com que os robôs aprendam mais de acordo com os padrões de aprendizado humano. A Google acredita que esse avanço significa a rápida convergência de IA e robótica, além de demonstrar o imenso potencial para o desenvolvimento de robôs de uso geral.
Em outro exemplo, o The New York Times relata um engenheiro do Google dando o comando “Pegue o animal extinto” e o robô RT-2 localiza e escolhe um dinossauro de uma seleção de três estatuetas em uma mesa.

Essa capacidade é notável porque os robôs geralmente são treinados a partir de um grande número de pontos de dados adquiridos manualmente, dificultando esse processo devido ao alto tempo e custo de cobertura de todos os cenários possíveis. Simplificando, o mundo real é uma bagunça dinâmica, com mudanças de situações e configurações de objetos. Um robô auxiliar prático precisa ser capaz de se adaptar em tempo real de maneiras que são impossíveis de programar explicitamente, e é aí que entra o RT-2.

Além do que se pode ver

Editora Sal Cultural - Coleção Grandes Temas da Teologia

Embora o objetivo final do Google DeepMind seja criar robôs de uso geral, a empresa sabe que ainda há muito trabalho de pesquisa pela frente antes de chegar lá. Mas tecnologias como o RT-2 parecem ser um forte passo nessa direção. Anteriormente a empresa havia revelado avanço significativo com seu agente de IA de auto aperfeiçoamento para robótica, apelidado de RoboCat. Este agente inovador possui a capacidade de aprender diversas tarefas em diferentes contextos, gerando assim novos dados de treinamento para aprimorar suas técnicas de forma autônoma.

O Google enfatizou que o RoboCat pode dominar uma nova tarefa com apenas 100 demonstrações, com base em um conjunto de dados extenso e diversificado. Essa capacidade acelera significativamente a pesquisa em robótica, minimizando a necessidade de treinamento supervisionado por humanos. Ele marca um passo crítico para a criação de robôs versáteis e de uso geral que podem se adaptar a vários cenários.

A integração de modelos de IA como RT-2 e RoboCat mostra o compromisso contínuo do Google em expandir os limites da inteligência artificial e sua aplicação na robótica. À medida que essas tecnologias de ponta amadurecem, as perspectivas de sistemas robóticos mais inteligentes, versáteis e autônomos tornam-se cada vez mais promissoras. O mundo está à beira de uma nova era na robótica, impulsionada pela fusão de visão, linguagem e ação, e o Google está na vanguarda dessa jornada transformadora.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *