Análise de Palavras

A inteligência artificial permite aos computadores simular, de forma automática, como os seres humanos atribuem características, ou conceito, às palavras.  Isto permite explorar grandes quantidades de dados, realizando análises como por exemplo: relações entre palavras, descobrir analogias, observar estereótipo ao longo do tempo etc. 

Os resultados destas análises dependem muito da fonte de informação. A exploração permite observar conhecimento em milhares de textos com mínima intervenção por parte do especialista. Esta análise consiste em representar as palavras em vetores de múltiplas dimensões (50, 100 e 300) de forma a mostrar as características que definem o conceito de cada palavra. Esta metodologia é aplicada em dois tipos de aplicações:

  • Exploração de similaridade, relações e estereótipos de palavras
  • Treinamento de modelos de IA para aplicações de Processamento de Linguagem Natura

Modelos Pré-treinados​

Com a finalidade de apoiar a comunidade acadêmica, são disponibilizados os modelos treinados  word2vec, assim como os vetores e metadados para visualização na plataforma Embedding Projector. Os modelos foram disponibilizados em arquivos binários para ser utilizados com a biblioteca gensim.

Modelo
Corpora Kaggle
CBOW 50 dimensões
CBOW 100 dimensões
CBOW 200 dimensões
CBOW 300 dimensões

Análise de representação de palavras em documentos de artigos relacionados a COVID-19, SARS-CoV-2

Vamos explorar alguns resultados de representação de palavras e relacionar com os resultados obtidos!

Os dados coletados: A partir do conjunto de documentos de Kaggle e Elsevier. Foram processados mais de 50.000 artigos científicos relacionados sobre COVID-19, SARS-CoV-2, e outras palavras chaves relacionadas ao coronavírus.

Metodologia: Após o processamento por técnicas de aprendizado automático (Wor2vec – BoW), cada palavra é representada por vetores de múltiplas dimensões. Para visualização, foram reduzidos para um espaço de 2D usando a técnica T-SNE. Os resultados são apresentados na figura embaixo. Cada ponto no gráfico representa uma palavra. 

A partir desta figura pode-se explorar diferentes grupos criados pela similaridade.  Por exemplo, na figura abaixo observa-se diferentes clusters verificados na imagem apresentada anteriormente.

O Embedding Projector segundo sua definição:  “… é uma ferramenta para fornecer as medições e visualizações necessárias durante o fluxo de trabalho de aprendizado de máquina. Permite rastrear métricas de experimentos como perda e precisão, visualizar o gráfico do modelo, projetar incorporações em um espaço dimensional mais baixo e muito mais”. Então, você pode continuar analisando outras particularidades destes dados com esta ferramenta. Algumas funcionalidades da interface: