A AMD patenteou um processador que inclui um acelerador de aprendizado de máquina (ML) que é empilhado no topo de sua matriz de E/S (IOD). A patente indica que a AMD pode estar planejando construir data center ou sistemas em chips (SoCs) para fins especiais com aceleradores de aprendizado de máquina baseados em GPU ou FPGA integrados.
Assim como a AMD agora pode adicionar cache às suas CPUs, você pode adicionar um FPGA ou GPU no topo do array de E/S do seu processador. Mas, mais importante, a tecnologia permite que a empresa adicione outros tipos de aceleradores a futuros SoCs de CPU. Como acontece com qualquer trabalho patenteado, a patente não garante que veremos projetos com a tecnologia no mercado. No entanto, isso nos dá uma ideia de qual direção a empresa está seguindo com seu P&D, e há uma chance de vermos produtos baseados nessa tecnologia, ou um derivado próximo, no mercado.
Empilhamento do acelerador AI/ML em uma matriz de E/S
A patente da AMD intitulada ‘Directly Attached Machine Learning Accelerator’ descreve abertamente como a AMD poderia adicionar um acelerador de ML às suas CPUs com um IOD usando suas tecnologias de empilhamento. Aparentemente, a tecnologia AMD permite adicionar uma matriz de processamento programável em campo (FPGA) ou GPU de computação para cargas de trabalho de aprendizado de máquina em uma matriz de E/S com uma porta aceleradora especial.
A AMD descreve vários meios de adicionar um acelerador: um envolve um acelerador com sua própria memória local, outro envolve o referido acelerador usando memória anexada a um IOD, enquanto no terceiro cenário um acelerador poderia usar memória do sistema e, neste caso, nem precisa ser empilhado em cima de um IOD.
As técnicas de aprendizado de máquina serão amplamente utilizadas em futuros data centers. No entanto, para ser mais competitiva, a AMD precisa acelerar as cargas de trabalho de ML usando seus chips. Empilhar um acelerador de aprendizado de máquina em cima de uma matriz de E/S de CPU permite que você acelere significativamente as cargas de trabalho de ML sem incorporar silício personalizado e otimizado para ML em chips de CPU. Ele também oferece vantagens de densidade, potência e taxa de transferência de dados.
A patente foi registrada em 25 de setembro de 2020, pouco mais de um mês antes de a AMD e a Xilinx anunciarem que suas equipes de gerenciamento chegaram a um acordo definitivo sob o qual a AMD adquiriria a Xilinx. A patente foi publicada em 31 de março de 2022, e o membro da AMD Maxim V. Kazakov está listado como o inventor. Os primeiros produtos Xilinx IP da AMD são esperados em 2023.
Não sabemos se a AMD usará sua patente para produtos reais, mas a elegância de adicionar recursos de ML a quase qualquer CPU faz com que a ideia pareça plausível. Supondo que os processadores EPYC de codinome ‘Genoa’ e ‘Bergamo’ da AMD usem um array de E/S com uma porta aceleradora, pode haver CPUs Genoa-AI e Bergamo-AI com um acelerador de ML.
Também digno de nota, há rumores de que a AMD está buscando um poder de design térmico configurável (cTDP) de 600W para seus processadores EPYC ‘Turin’ de 5ª geração, que é mais que o dobro do cTDP da série EPYC 7003 da geração atual. Processadores ‘Milão’. Além disso, a plataforma SP5 da AMD para CPUs EPYC de 4ª e 5ª geração fornece até 700W de potência por períodos muito curtos para os processadores.
Não sabemos quanta potência os futuros processadores AMD 96 – 128 (Genoa e Bergamo) precisarão, mas adicionar um acelerador de ML no pacote do processador certamente aumentará o consumo. Para isso, faz todo o sentido garantir que as plataformas de servidor de última geração sejam capazes de suportar CPUs com aceleradores empilhados.
Construindo os melhores SoCs para data centers
A AMD tem falado sobre Unidades de Processamento Acelerado (APUs) de data center desde que adquiriu a ATI Technologies em 2006. Nos últimos 15 anos, ouvimos falar de vários projetos de APU de data center integrando núcleos x86 de uso geral para cargas de trabalho típicas e GPUs Radeon para aplicações altamente paralelas. cargas de trabalho
Nenhum desses projetos se materializou, e há muitas razões para isso. Até certo ponto, como os núcleos Bulldozer da AMD não eram competitivos, não fazia muito sentido construir um chip grande e caro que pudesse ter uma demanda muito limitada. Outro motivo é que as GPUs Radeon convencionais não suportavam todos os formatos de dados e instruções necessários para cargas de trabalho de data center/AI/ML/HPC, e a primeira GPU baseada em CDNA centrada em computação da AMD só surgiu em 2020.
Mas agora que a AMD tem uma microarquitetura x86 competitiva, uma arquitetura de GPU orientada a computação, um portfólio de FPGAs da Xilinx e uma família de processadores programáveis da Pensando, pode não fazer muito sentido colocar esses vários blocos de IP em um único chip . grande. . Muito pelo contrário, com as atuais tecnologias de empacotamento oferecidas pela TSMC e a própria tecnologia de interconexão Infinity Fabric da AMD, faz muito mais sentido construir módulos multi-tile (ou multi-chiplet) com chiplets de processador x86 de uso geral, um die de I/ O, bem como aceleradores baseados em GPU ou FPGA.
Na verdade, faz mais sentido construir um processador de data center com vários chips em vez de uma grande CPU monolítica com diversos IPs incorporados. Por exemplo, uma APU de data center de vários blocos pode se beneficiar de um bloco de CPU construído com o nó otimizado para desempenho N4X da TSMC, bem como um bloco acelerador de GPU ou FPGA produzido com tecnologia de processo N3E otimizada para densidade.
porta do acelerador universal
Outra parte importante da patente não é uma implementação específica projetada para acelerar cargas de trabalho de aprendizado de máquina usando um FPGA ou GPU de computação, mas sim o princípio de adicionar um acelerador de propósito especial a qualquer CPU. A porta do acelerador será uma interface universal apresentada nas matrizes de E/S da AMD, portanto, eventualmente, a AMD poderá adicionar outros tipos de aceleradores a seus processadores destinados a aplicativos de cliente ou data center.
“Deve-se entender que muitas variações são possíveis dependendo da divulgação deste documento”, diz uma descrição da patente. “Processadores adequados incluem, a título de exemplo, um processador de uso geral, um processador de uso especial, um processador convencional, um processador gráfico, um processador de aprendizado de máquina, [a DSP, an ASIC, an FPGA]e outros tipos de circuitos integrados (CIs). […] Esses processadores podem ser fabricados configurando um processo de fabricação usando os resultados de instruções processadas de linguagem de descrição de hardware (HDL) e outros dados intermediários, incluindo netlists (instruções que podem ser armazenadas em um meio legível por computador).”
Embora FPGAs, GPUs e DSPs possam ser usados para uma variedade de aplicativos ainda hoje, coisas como unidades de processamento de dados (DPUs) para data centers só crescerão em importância nos próximos anos. As DPUs são essencialmente um aplicativo emergente que a AMD agora possui. Mas à medida que o data center se transforma para processar ainda mais tipos de dados mais rapidamente (e também os PCs clientes, pois a Apple integra a aceleração específica de aplicativos como ProRes RAW em seus SoCs clientes), os aceleradores se tornam mais comuns. Isso significa que deve haver uma maneira de adicioná-los a qualquer ou quase qualquer processador de servidor. Na verdade, a porta do acelerador AMD é uma maneira relativamente fácil de fazer isso.