Tradicionalmente reconhecida por seus chips Snapdragon para smartphones, PCs e outros dispositivos, e também por produtos para edge cloud e IoT, a Qualcomm começou a dar passos mais firmes em direção a um novo segmento: o dos datacenters. O lançamento recente das placas aceleradoras AI200 e AI250, voltadas para cargas de inferência em inteligência artificial, representa um reforço na linha de produtos voltados para datacenters, mercado hoje dominado por poucas companhias e pressionado por custos energéticos e operacionais. Para entender como a Qualcomm enxerga essa expansão e como esses produtos se inserem em sua estratégia global, conversamos com Leonardo Finizola, diretor de produtos da Qualcomm Brasil. Confira a aseguir a conversa.
O lançamento das placas AI200 e AI250 chamou atenção porque a Qualcomm sempre foi muito forte no mercado de celulares e outros produtos para o consumidor final. Trata-se de uma entrada nova no mercado de datacenters?
A Qualcomm sempre teve uma presença grande em inferência na borda, tanto em smartphones quanto em chips para carros. Isso exigiu que criássemos hardware de alta performance e baixo consumo, e um stack de software muito otimizado. Dessa forma, a transição para o datacenter não é um salto tecnológico tão grande. O desafio é levar essas vantagens para um mercado em forte expansão e onde mesmo pequenas fatias de participação têm impacto relevante no resultado da empresa. Assim, é um movimento de diversificação.
E como esses novos produtos se encaixam na estratégia da empresa para datacenters?
Estamos buscando três pilares: performance, eficiência energética e redução de TCO (custo total de operação). O mercado de inferência hoje responde por mais de 90% do uso global de IA, e acreditamos que ele vai crescer ainda mais com modelos maiores e mais complexos. Nossa tecnologia, especialmente com recursos como near memory, permite reduzir custos energéticos e de infraestrutura, ao mesmo tempo em que entrega desempenho para cargas de inferência. Esse é o foco.
Você mencionou o uso de near memory como diferencial. Como isso funciona?
Na inferência, é essencial ter acesso rápido a grandes quantidades de dados, mas sem a necessidade da altíssima banda típica de aplicações de treinamento de modelos de IA. A arquitetura near memory coloca a memória muito próxima ao processador, reduzindo o tempo de acesso e permitindo usar módulos de memória do tipo LPDDR, mais baratas e eficientes energeticamente do que memórias HBM, por exemplo. Com isso, a GPU fica ocupada o tempo todo, consome menos energia e reduzimos o custo total de operação — incluindo energia, refrigeração e infraestrutura.

Leonardo Finizola, da Qualcomm Brasil
Sobre as novas placas: como funciona o modelo de entrega ao mercado? A Qualcomm fornecerá o chip, as placas ou racks completos?
Teremos as três opções. Podemos fornecer apenas o SoC, o card completo ou o rack integrado com sistemas de resfriamento a ar ou líquido. Esse rack será oferecido diretamente ou em parceria com OEMs, dependendo do projeto. Nosso objetivo é atender desde clientes que querem apenas o chipset até aqueles que buscam soluções de maior escala.
Por que o foco exclusivo em inferência?
Treinamento e inferência têm comportamentos muito diferentes. O treinamento exige grande largura de banda de memória e trocas intensas de dados; é um mercado em que outros players já estão bem estabelecidos e onde não buscamos competir agora. Na inferência, porém, há duas fases distintas: o prefill (ou encoding) e o decoding. Cada uma tem características próprias, mas ambas podem ser altamente otimizadas quando você tem um hardware preparado para evitar gargalos, como momentos em que a GPU fica ociosa e consome energia sem processar. Foi nesse ponto que colocamos nossa engenharia.
As tecnologias usadas nessa nova linha derivam do que já existe nos chips Snapdragon?
Sem dúvida. Tanto o hardware quanto o stack de software têm origem em tudo o que desenvolvemos para mobile, automotivo e IoT. Temos um histórico grande em otimizar IA na borda, e isso inclui modelos embarcados de 13 a 40 TOPS nas nossas AI Boxes, ou até centenas de TOPS no AI100, que já está sendo comercializado no Brasil e pode ser considerado o precursor da linha de datacenters. O AI200 e o AI250 representam um salto grande, mas eles vêm dessa base tecnológica consolidada.
Quem utiliza hoje as caixas de IA e os cards menores que a Qualcomm já vende no Brasil?
Atuamos muito com projetos de edge computing em setores como segurança, varejo, mineração, utilities e telecom. No varejo, por exemplo, uma AI Box pode dar inteligência a dezenas de câmeras ao mesmo tempo para análise de fluxo de pessoas em lojas, prevenção de perdas e experiência do cliente. Na segurança, fazemos projetos com vídeo analítico. Em mineração e utilities, conectamos sensores, câmeras e LIDARs para aplicações de supervisão em campo. Essas caixas vêm sendo muito adotadas porque permitem executar IA localmente, sem depender de latência de datacenters distantes.
E como esses projetos dialogam com a entrada em datacenters?
É uma evolução natural. Primeiro colocamos IA na borda; depois, avançamos para cards como o AI100; agora chegamos ao datacenter, com poder de inferência significativamente maior. O que estamos trazendo é a capacidade de escalar o que já dominamos no edge para ambientes que exigem densidade e eficiência muito maiores.
Os modelos de clientes no Brasil para datacenter já estão definidos?
Estamos justamente na fase de nos aproximar das empresas que operam datacenters e entender quais modelos de negócio fazem mais sentido aqui, desde provedores de nuvem a empresas on-prem que precisam de inferência em larga escala. O objetivo é construir, junto com o mercado brasileiro, o caminho para adoção dessas soluções.