Use este identificador para citar ou acessar este item:
https://www5.usp.br/
Título: | Corpus Carolina v1.0 Ada |
Assunto: | Contemporary Brazilian Portuguese texts;Corpus Carolina |
Descrição: | Carolina is a general corpus of contemporary Brazilian Portuguese with information on origin and typology. Carolina is an open corpus for Linguistics and Artificial Intelligence with a robust volume of texts of varied typology in contemporary Brazilian Portuguese (1970-2021). The first version of the corpus – 1.0 Ada – totals 653,354,884 million tokens, and is available in open access, for free download for research purposes, since March 8, 2022. Lincensing information may vary from text to text. Please check information at each text/file TEI-xml heading. This version of the corpus contains seven typologies: 1. datasets and other corpora 2. legislative branch 3. social media 4. wikis 5. judicial branch 6. public domain works 7. university domains This collection: datasets and other corpora |
Autor(es): | Finger, Marcelo Paixão de Sousa, Maria Clara Namiuti, Cristiane Martins do Monte, Vanessa |
URI: | https://www5.usp.br/ http://repositorio.uspdigital.usp.br/handle/item/352 |
Outros identificadores: | |
Fomento: | Fapesp |
Número do Projeto: | 2019/07665-4 |
Termo de uso: | |
Data: | |
Data de Disponibilização: | 4-Abr-2022 22-Ago-2023 |
Formato: | zip file |
Tipo: | Dataset |
Editora / Evento / Instituição: | Center for Artificial Intelligence (C4AI) http://c4ai.inova.usp.br |
Idioma : | |
Aparece nas coleções: | Repositório de dados de pesquisa da Universidade de São Paulo |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.