
A inteligência artificial está avançando para além da compreensão textual: hoje, modelos capazes de interpretar imagens, sons e texto simultaneamente estão transformando a maneira como interagimos com máquinas. Neste livro, exploramos o poder dos Modelos de Linguagem Multimodal (MLLMs) com foco em aplicações práticas utilizando a linguagem Python e ferramentas modernas como o Hugging Face Transformers.
Por meio de exemplos claros e funcionais, como o uso do modelo BLIP (Bootstrapped Language-Image Pretraining) para geração automática de legendas a partir de imagens, o leitor aprenderá a desenvolver sistemas inteligentes que integram múltiplas formas de dados. O livro é ideal para estudantes, professores e profissionais que desejam compreender e aplicar conceitos de IA multimodal em seus projetos.
Com uma abordagem direta, prática e acessível, esta obra convida-o a mergulhar no futuro da computação — onde visão e linguagem caminham juntas para criar experiências verdadeiramente interativas e inteligentes.
Number of pages | 108 |
Edition | 1 (2025) |
Format | A5 (148x210) |
Binding | Paperback w/ flaps |
Paper type | Coated Silk 90g |
Language | Portuguese |
Have a complaint about this book? Send an email to [email protected]
login Review the book.