Início

Brazilian Legal Text Dataset

Última Atualização: 07 Dezembro 2023 Criado: 07 Dezembro 2023

Descrição

O software realiza a recuperação automática (por meio de web scrappers) de leis e doutrinas do jurídicas em sites de tribunais e universidades, realizando, em seguida, a extração de texto de arquivos pdf e html, limpando, segmentando e preparando para ser utilizado em pesquisas sobre Processamento de Linguagem Natural, Sistemas de Similaridade Semântica, Clusterização e Aprendizado de Redes Profundas. Permite realizar cada etapa deste processo de forma independente e extensível para ser capaz de adicionar novas fontes de dados e ou novos formatos de saída.

Diferencial Tecnológico

No Brasil, não existe corpus (dataset) especializado na área jurídica disponível para acesso público que possa ser utilizado tanto para pré-treinamento de redes profundas, quanto para avaliação de similaridade semântica. Nosso software preenche esta lacuna e abre espaço para novas pesquisas na área do Processamento de Linguagem Natural especializada em vocabulário jurídico que pode ser aplicada em atividades próprias do direito como busca de jurisprudência, mineração de dados e jurimetria.

Objetivos da Universidade

Transferência de Tecnologia

Entre em Contato

Nome do Contato: Saulo Gomes Moreira

Função: Diretor da Agência de Internacionalização e de Inovação

E-mail: saulo.moreira@ufms.br

E-mail Alternativo: aginova@ufms.br

Telefone: (67) 3345-7188

Conheça Mais Tecnlogias

A Vitrine MEC de Tecnologias possui uma variedade de propriedades intelectuais de vários tipos.

Mais Tecnologias