Replication data for: Evaluating named entity recognition - a comparative analysis of mono- and multilingual transformer models on a novel brazilian corporate earnings call transcripts dataset

Abilio, Ramon Simões; Coelho, Guilherme Palermo; Silva, Ana Estela Antunes da

Página inicial
→
UNICAMP - Universidade Estadual de Campinas
→
Repositório de Dados de Pesquisa da UNICAMP
→
Ver item

Replication data for: Evaluating named entity recognition - a comparative analysis of mono- and multilingual transformer models on a novel brazilian corporate earnings call transcripts dataset

Abilio, Ramon Simões; Coelho, Guilherme Palermo; Silva, Ana Estela Antunes da

URI: https://doi.org/10.25824/redu/YI280E
https://redu.unicamp.br/dataset.xhtml?amp;persistentId=doi:10.25824/redu/YI280E

Descrição:

This package contains a dataset comprising 384 earnings call transcripts from Brazilian banks, along with the accompanying Jupyter notebooks used for preprocessing, annotating, and fine-tuning. The notebooks are specifically designed for fine-tuning BERT- and T5-based transformer models for the task of financial Named Entity Recognition (NER). The submission is organized into two main files: <ul> <li> File: SourceCode.zip – This file includes the original PDF files of the transcripts and a series of Jupyter notebooks (Python) that document the step-by-step methodology of the study: 1) text extraction and sentence pre-processing; 2) weak supervision for annotation; 3) generation of train, validation, and test splits; and 4) fine-tuning of the Transformer models. </li> <li> File: Datasets.zip – This file contains a single CSV file with all raw sentences extracted from the PDFs, as well as a subfolder with the annotated sentences, already divided into standard training, validation, and testing sets to facilitate reproducible research. </li> </ul>

Mostrar registro completo

Arquivos deste item

Arquivos	Tamanho	Formato	Visualização
Não existem arquivos associados a este item.

Este item aparece na(s) seguinte(s) coleção(s)

Repositório de Dados de Pesquisa da UNICAMP [1719]

Buscar DSpace

Busca avançada

Navegar

Todo o repositório
Esta coleção

Minha conta

Entrar

Replication data for: Evaluating named entity recognition - a comparative analysis of mono- and multilingual transformer models on a novel brazilian corporate earnings call transcripts dataset

Replication data for: Evaluating named entity recognition - a comparative analysis of mono- and multilingual transformer models on a novel brazilian corporate earnings call transcripts dataset

Descrição:

Arquivos deste item

Este item aparece na(s) seguinte(s) coleção(s)

Buscar DSpace

Navegar

Todo o repositório

Esta coleção

Minha conta

Estatística