Descrição
O software realiza a recuperação automática (por meio de web scrappers) de leis e doutrinas do jurídicas em sites de tribunais e universidades, realizando, em seguida, a extração de texto de arquivos pdf e html, limpando, segmentando e preparando para ser utilizado em pesquisas sobre Processamento de Linguagem Natural, Sistemas de Similaridade Semântica, Clusterização e Aprendizado de Redes Profundas. Permite realizar cada etapa deste processo de forma independente e extensível para ser capaz de adicionar novas fontes de dados e ou novos formatos de saída.
Diferencial Tecnológico
No Brasil, não existe corpus (dataset) especializado na área jurídica disponível para acesso público que possa ser utilizado tanto para pré-treinamento de redes profundas, quanto para avaliação de similaridade semântica. Nosso software preenche esta lacuna e abre espaço para novas pesquisas na área do Processamento de Linguagem Natural especializada em vocabulário jurídico que pode ser aplicada em atividades próprias do direito como busca de jurisprudência, mineração de dados e jurimetria.
Objetivos da Universidade
Transferência de Tecnologia