Quais são as diferenças entre o transformador e o LSTM?

Ei! Como fornecedor de transformadores, muitas vezes me perguntam sobre as diferenças entre o Transformer e o LSTM. Então, pensei em escrever este blog para dividi -lo para você.

O que são transformadores e LSTMs?

Vamos começar com uma introdução rápida. Os transformadores são um tipo de arquitetura de rede neural que é realmente popular no processamento de linguagem natural (PNL) atualmente. Eles foram introduzidos no artigo "Atenção é tudo o que você precisa" em 2017. A idéia principal por trás dos transformadores é o uso do mecanismo de atenção, que permite que o modelo se concentre em diferentes partes da sequência de entrada ao fazer previsões.

Por outro lado, as redes de memória curta longa e curta (LSTM) são um tipo de rede neural recorrente (RNN). Os RNNs são projetados para lidar com dados seqüenciais, como dados de texto ou tempo - da série. Mas os RNNs tradicionais sofrem com o problema do gradiente de desaparecimento, o que dificulta a aprendizagem de dependências longas e longas. Os LSTMs foram desenvolvidos para resolver esse problema. Eles têm uma estrutura celular especial com portões (portão de entrada, portão e portão de saída) que podem controlar o fluxo de informações através da rede, permitindo que eles lembrem de informações por períodos mais longos.

Diferenças de arquitetura

Uma das maiores diferenças entre Transformers e LSTMs está em sua arquitetura.

Sequências de processo LSTMS sequencialmente. Isso significa que eles leem a entrada um elemento de cada vez e atualizam seu estado interno com base na entrada atual e no estado anterior. Esse processamento seqüencial os torna ótimos para tarefas em que a ordem da entrada é muito importante, como a tradução de idiomas onde a gramática e a ordem das palavras são cruciais. No entanto, também os deixa lentos para treinar porque não podem paralelizar o processamento da sequência.

Transformadores, por outro lado, não processe a sequência sequencialmente. Eles usam o mecanismo de atenção para examinar todas as partes da sequência de entrada simultaneamente. Isso permite que eles paralalizem o processamento, o que significa que eles podem treinar muito mais rápido que o LSTMS. O mecanismo de atenção calcula uma soma ponderada dos vetores de entrada, onde os pesos são determinados pela relevante de cada entrada para os outros. Dessa forma, o modelo pode capturar facilmente dependências de faixa longa na sequência sem precisar processá -lo passo a passo.

Desempenho em tarefas diferentes

Quando se trata de desempenho, transformadores e LSTMs têm seus pontos fortes e fracos.

Nas tarefas da PNL, os Transformers realmente assumiram o controle nos últimos anos. Para tarefas como geração de texto, análise de sentimentos e sistemas de resposta a perguntas, os transformadores geralmente superam o LSTMS. Sua capacidade de capturar dependências longas e de alcance rapidamente as torna bem - adequadas para essas tarefas. Por exemplo, modelos como GPT (Transformador Pré -denominado Generativo) e Bert (representações bidirecionais do codificador de Transformers) são baseadas na arquitetura do transformador e alcançaram o estado - dos resultados da arte em muitos benchmarks de PNL.

Os LSTMs, no entanto, ainda têm seu lugar. Eles ainda são úteis para tarefas em que a natureza seqüencial dos dados é muito importante e onde o comprimento da sequência é relativamente curto. Por exemplo, no reconhecimento da fala, onde a ordem dos quadros de áudio é muito importante, os LSTMs podem ser uma boa escolha. Eles também podem ser mais interpretáveis do que os transformadores em alguns casos, o que pode ser uma vantagem quando você precisa entender como o modelo está tomando suas decisões.

Memória e computação

O uso da memória é outra área em que os Transformers e os LSTMs diferem.

Single Phase Control Transformer

Os LSTMs têm uma pegada de memória relativamente pequena em comparação aos transformadores. Como processam a sequência um elemento de cada vez, eles só precisam acompanhar o estado atual e o estado anterior. Isso os torna mais memória - eficiente, especialmente para sequências longas.

Os transformadores, por outro lado, precisam armazenar todos os vetores de entrada e calcular as pontuações de atenção para todos os pares de elementos de entrada. Isso pode levar a um alto uso de memória, especialmente para sequências longas. No entanto, com o desenvolvimento de técnicas como atenção escassa, esse problema está sendo atenuado até certo ponto.

Em termos de computação, como mencionado anteriormente, os transformadores podem paralelizar o processamento da sequência, o que os torna muito mais rápidos para treinar que o LSTMS. Mas isso também significa que eles exigem mais recursos computacionais, como GPUs ou TPUs poderosos. Os LSTMs, com seu processamento seqüencial, são menos intensivos em computação, mas demoram mais para treinar.

Aplicações no mundo real

Vamos falar sobre como essas duas arquiteturas são usadas no mundo real.

Os transformadores estão sendo usados em uma ampla gama de aplicações. Na indústria de tecnologia, eles são usados para itens como assistentes virtuais, chatbots e serviços de tradução de idiomas. Por exemplo, o Google Translate começou a usar modelos baseados em transformadores para melhorar a qualidade de suas traduções. No campo das finanças, os transformadores podem ser usados para prever os preços das ações, analisando artigos de notícias e sentimentos de mídia social.

Os LSTMs ainda são usados em muitos setores também. No setor de saúde, eles podem ser usados para analisar dados do paciente ao longo do tempo, como sinais de eletrocardiograma (ECG) ou sinais vitais do paciente. Na indústria automotiva, os LSTMs podem ser usados para prever o comportamento do veículo com base em dados históricos.

Nossos produtos de transformadores

Como fornecedor de transformadores, oferecemos uma variedade de transformadores de alta qualidade para diferentes aplicações. Se você está procurando umTransformador de controle monofásico, temos você coberto. Esses transformadores são projetados para fornecer controle preciso e desempenho confiável em sistemas elétricos de fase única.

Nós também temosTransformador de tipo seco trifásico de baixa tensão de alumínio. Esses transformadores são leves, energéticos - eficientes e adequados para uma ampla gama de aplicações industriais.

E se você precisar de umTransformador de controle da série BK, nós os temos em estoque. A série BK é conhecida por sua durabilidade e excelente desempenho nos circuitos de controle.

Conclusão

Em conclusão, transformadores e LSTMs são poderosas arquiteturas de rede neural, mas elas têm características diferentes que os tornam adequados para diferentes tarefas. Os transformadores são ótimos para tarefas em que as dependências de alcance longas precisam ser capturadas e o treinamento rápido é necessário, enquanto os LSTMs são melhores para tarefas em que o processamento seqüencial e a eficiência da memória são importantes.

Se você está no mercado de transformadores para seus sistemas elétricos, estamos aqui para ajudar. Se você precisa de um transformador de controle de fase único, um transformador de tipo seco de três fases ou um transformador de controle da série BK, podemos fornecer o produto certo. Entre em contato conosco para iniciar uma discussão de compras e encontrar a melhor solução para suas necessidades.

Referências

Vaswani, A., Shazer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, An, ... & Polosukhin, I. (2017). Atenção é tudo o que você precisa. Avanços nos sistemas de processamento de informações neurais.
Hochreiter, S. & Schmidhuber, J. (1997). Memória curta longa e curta. Computação Neural, 9 (8), 1735 - 1780.