Google I/O 2024: confira o resumo com os principais anúncios do evento

Google I/O day! O Google realizou, nessa terça-feira (15), sua conferência para desenvolvedores com várias revelações sobre os projetos recentes da gigante da tecnologia.

Caso você não tenha tido tempo de assistir à apresentação completa de duas horas, nós fizemos isso e trouxemos os destaques mais importantes do keynote conforme foram anunciados!

Firebase Genkit

O Firebase acaba de ganhar um recurso chamado Firebase Genkit. Ele visa facilitar a criação de aplicativos com poder de IA usando JavaScript/TypeScript, com suporte para Go a caminho. Esse framework de código aberto opera sob a licença Apache 2.0 e permite que os desenvolvedores integrem rapidamente a IA em aplicações novas e existentes.

A empresa destacou no Google I/O vários usos típicos de GenAI para o Genkit, como geração de conteúdo, resumo, tradução de texto e criação de imagens.

IA gerativa para aprendizado

O Google apresentou o LearnLM, uma nova linha de modelos de IA generativa afinados para aprendizado. Esse projeto é uma colaboração entre o braço de pesquisa de IA do Google, o DeepMind, e o Google Research. Projetados para tutorar estudantes de forma conversacional em diversos assuntos, o LearnLM já está disponível em várias plataformas do Google.

A empresa também está promovendo o LearnLM por meio de um programa piloto no Google Classroom. Está colaborando com educadores para ver como o LearnLM pode facilitar e melhorar o planejamento das aulas. Durante o Google I/O, a empresa sugeriu que ele poderia ajudar professores a descobrir novas ideias, conteúdos e atividades, ou mesmo encontrar recursos adaptados para grupos específicos de alunos.

Mestre do Quiz

Falando em educação, novidade do Google I/O sobre o YouTube são os quizzes gerados por IA. Essa nova ferramenta de IA conversacional permite que os usuários literalmente “levantem a mão” enquanto assistem a vídeos educacionais. Os espectadores podem fazer perguntas para esclarecimentos, obter explicações úteis ou fazer um quiz sobre o assunto.

Isso vai ser um alívio para aqueles que precisam assistir vídeos educacionais mais longos, como palestras ou seminários, graças às capacidades de contexto longo do modelo Gemini. Essas novas funcionalidades estão sendo lançadas para alguns usuários Android nos EUA.

Google Play

O Google Play está se destacando com um inovador recurso de descoberta de aplicativos, novas estratégias para atrair usuários, atualizações no Play Points e melhorias em diversas ferramentas destinadas aos desenvolvedores. Isso inclui o Google Play SDK Console e a Play Integrity API, entre outras novidades.

Para os desenvolvedores, um dos pontos altos é o novo Engage SDK. Ele promete revolucionar a forma como os criadores de aplicativos apresentam seu conteúdo, oferecendo uma experiência de tela cheia imersiva e personalizada para cada usuário. Por enquanto, essa funcionalidade ainda não está disponível para visualização pelos usuários.

Detectando golpes durante chamadas

Na última terça-feira, no Google I/O, o gigante da tecnologia revelou um novo recurso que promete alertar os usuários sobre possíveis golpes durante ligações.

Essa funcionalidade será parte de uma versão futura do Android e opera através do Gemini Nano, a versão mais compacta das ferramentas de IA gerativa do Google, capaz de funcionar diretamente no dispositivo. O sistema monitora em tempo real os “padrões de conversa comumente associados a golpes”.

Como exemplo, o Google menciona uma situação onde alguém se passa por um “representante bancário”. Estratégias típicas de golpistas, como pedidos de senhas e cartões-presente, também ativarão o alerta. Apesar de serem táticas já bem conhecidas para extorquir dinheiro, muitas pessoas ao redor do mundo ainda caem nesses tipos de armadilhas. Quando o sistema é ativado, ele exibe uma notificação avisando que o usuário pode estar sendo enganado por indivíduos suspeitos.

Ask Photos

O Google Photos está se renovando com uma dose de IA através do lançamento de um recurso experimental chamado Ask Photos, impulsionado pelo modelo Gemini AI do Google. Essa novidade, prevista para ser lançada em breve, permitirá que os usuários façam pesquisas em sua coleção do Google Photos usando consultas em linguagem natural. Esse recurso tira proveito do entendimento da IA sobre o conteúdo das fotos e outros metadados.

Anteriormente, os usuários podiam buscar por pessoas, lugares ou objetos específicos em suas fotos. Com a nova atualização em processamento de linguagem natural, encontrar o conteúdo desejado se tornará uma experiência mais intuitiva e menos dependente de buscas manuais.

Gemini no Gmail

Anunciado no Google I/O, em breve os usuários do Gmail poderão empregar a tecnologia AI Gemini para pesquisar, resumir e redigir e-mails. Além disso, este recurso será capaz de realizar ações mais complexas em e-mails, como auxiliar no processamento de devoluções de compras online. Para isso, o Gemini procurará na caixa de entrada, encontrará o recibo necessário e preencherá automaticamente um formulário online.

Gemini 1.5 Pro

A tecnologia de IA gerativa recebeu um impulso notável: o Gemini agora tem capacidade de analisar documentos, códigos, vídeos e gravações de áudio mais longos do que anteriormente.

Em uma apresentação privada da nova versão do Gemini 1.5 Pro, o carro-chefe da empresa, foi divulgado que ele agora suporta até 2 milhões de tokens. Isso é o dobro da capacidade anterior. Com essa atualização, o Gemini 1.5 Pro passa a ter a maior capacidade de entrada de qualquer modelo disponível comercialmente.

Gemini Live

Durante o Google I/O, foi apresentada uma inovação chamada Gemini Live. Esse recurso permite que os usuários tenham conversas de voz “aprofundadas” com o Gemini diretamente de seus smartphones. Os usuários podem interromper o Gemini enquanto ele fala para fazer perguntas clarificadoras, e ele adaptará seus padrões de fala em tempo real.

O Gemini também pode detectar e responder ao ambiente ao redor dos usuários, seja por meio de fotos ou vídeos capturados pelas câmeras dos smartphones.

Embora à primeira vista o Live possa parecer uma extensão da tecnologia existente, o Google enfatiza que ele utiliza técnicas mais avançadas de IA gerativa para uma análise de imagem mais precisa e com menos erros. Além disso, combina essas técnicas com um motor de fala melhorado para diálogos mais consistentes, expressivos e realistas.

Gemini Nano

O Gemini, a nova alternativa de IA ao Google Assistant no Android, logo capitalizará sua habilidade de se integrar profundamente ao sistema operacional móvel e aos aplicativos do Google. Os usuários terão a facilidade de arrastar e soltar imagens geradas por IA diretamente em aplicativos como Gmail e Google Messages. Além disso, os usuários do YouTube terão a opção de usar “Pergunte a este vídeo” para buscar informações específicas dentro de um vídeo do YouTube, conforme informado pelo Google.

Gemini no Android

O modelo Gemini também está se expandindo para o Google Maps, especificamente para os desenvolvedores por meio da API Places. Revelado no Google I/O, os desenvolvedores agora podem incluir resumos de IA gerativa de lugares e áreas em seus próprios aplicativos e sites. Esses resumos são gerados a partir da análise feita pelo Gemini, utilizando insights da comunidade do Google Maps, que conta com mais de 300 milhões de colaboradores. A vantagem é que os desenvolvedores não precisarão mais criar manualmente suas próprias descrições de lugares.

Gemini no Google Maps

A capacidade do modelo Gemini está sendo integrada à plataforma Google Maps para desenvolvedores, começando pela API Places. Como explicado no Google I/O, os desenvolvedores agora podem apresentar resumos gerados por IA de lugares e áreas em seus próprios aplicativos e sites. Esses resumos são elaborados a partir da análise de insights fornecidos pela comunidade do Google Maps, que conta com mais de 300 milhões de colaboradores. A grande vantagem é que os desenvolvedores não precisarão mais redigir suas próprias descrições personalizadas dos lugares.

IA na pesquisa

Durante o Google I/O, foi anunciado que mais inteligência artificial está sendo incorporada à pesquisa do Google, reafirmando a posição da empresa frente a concorrentes como ChatGPT e Perplexity. A empresa introduziu visões gerais alimentadas por IA para usuários nos EUA. Ademais, o Google planeja utilizar o Gemini como um facilitador para atividades como o planejamento de viagens. Leia mais

O Google está também inovando na organização da página de resultados de pesquisa com o uso de IA generativa para alguns tipos de consultas. Isso complementa o recurso já existente de Visão Geral da IA, que gera um resumo com informações consolidadas sobre um tema pesquisado. Esse recurso de Visão Geral da IA será disponibilizado ao público geral na terça-feira, após um período de testes no laboratório de IA do Google.

Atualizações de IA generativa

Durante o Google I/O, o Google também lançou o Imagen 3, a mais nova adição à sua série de modelos de IA generativa Imagen. Demis Hassabis, CEO da DeepMind, a divisão de pesquisa de IA do Google, destacou que o Imagen 3 interpreta comandos de texto e os transforma em imagens com maior precisão que o modelo anterior, o Imagen 2, sendo também mais “criativo e detalhado” em suas criações. Além disso, ele produz menos “artefatos distrativos” e erros.

“Este é [também] nosso melhor modelo até agora para renderizar texto, o que tem sido um desafio para os modelos de geração de imagens,” Hassabis adicionou, no Google I/O.

Project IDX

Outra novidade apresentada no Google I/O foi o Project IDX, uma plataforma de desenvolvimento baseada em navegador e centrada em IA de próxima geração da empresa, que agora está em beta aberto. Com essa nova versão, há uma integração com a Plataforma Google Maps no IDE, facilitando a adição de funcionalidades de geolocalização aos aplicativos. Além disso, há integrações com as Ferramentas Dev do Chrome e Lighthouse para auxiliar na depuração de aplicativos.

De acordo com o Google I/O, em breve, será possível também realizar o deploy de aplicativos para o Cloud Run, a plataforma sem servidor do Google Cloud, que permite executar serviços front-end e back-end.

Veo

No recente Google I/O, o Google introduziu o Veo, uma resposta ao Sora da OpenAI. O Veo é um modelo de IA capaz de criar clipes de vídeo em 1080p, com duração de cerca de um minuto, a partir de simples prompts de texto. Este modelo destaca-se pela sua habilidade em capturar diversos estilos visuais e cinematográficos, incluindo paisagens e time-lapses, além de poder realizar edições e ajustes em filmagens já existentes.

Este lançamento do Google I/O se apoia nos esforços anteriores do Google na área de geração de vídeo. Em abril, a empresa já havia apresentado um trabalho preliminar utilizando o Imagen 2, parte da série de modelos de geração de imagens da empresa, para criar clipes de vídeo em loop.

Inovações do Google I/O

A apresentação do Google I/O deste ano deixou claro que o Google está fazendo grandes avanços na integração da inteligência artificial em uma ampla gama de seus produtos e serviços. Desde novas ferramentas educacionais como o LearnLM e quizzes interativos no YouTube, até avanços significativos como o Project IDX, o Google continua a se mostrar um representante importante da inovação tecnológica.

Com o lançamento de novos modelos de IA como o Gemini 1.5 Pro e o pequeno, porém poderoso, Gemini Nano, fica evidente que o Google não apenas busca aprimorar a funcionalidade e a acessibilidade de suas ofertas, mas também está atento às preocupações de segurança e privacidade dos usuários com recursos como a detecção de golpes durante chamadas.

A expansão do uso de IA em ferramentas de desenvolvimento e a integração em dispositivos e plataformas populares indicam um futuro onde a IA do Google será ainda mais onipresente e integrada no dia a dia dos usuários. Certamente, as inovações apresentadas no Google I/O configuram o próximo capítulo da tecnologia, prometendo transformar a maneira como interagimos com o mundo digital.