Building Carolina: metadata for provenance and typology in a corpus of contemporary Brazilian Portuguese (2025)
- Authors:
- USP affiliated authors: FINGER, MARCELO - IME ; SOUSA, MARIA CLARA PAIXAO DE - FFLCH ; MONTE, VANESSA MARTINS DO - FFLCH ; PALMA, MAYARA FELICIANO - FFLCH ; LACHI, GABRIELA ALVES - FFLCH ; SERRAS, FELIPE RIBAS - IME ; STURZENEKER, MARIANA LOURENÇO - FFLCH ; CARPI, MIGUEL DE MELLO - IME
- Unidades: IME; FFLCH
- DOI: 10.25189/2675-4916.2025.v6.n4.id812
- Assunto: COMPUTAÇÃO APLICADA
- Keywords: Brazilian Portuguese; Open Corpus; WaC; Typology; Provenance; WaC-wiPT; Português do Brasil; Corpus Aberto; WaC; Tipologia; Proveniência
- Agências de fomento:
- Language: Inglês
- Abstract: Este artigo apresenta os desafios da construção do CAROLINA, um grande corpus aberto de textos em português brasileiro em desenvolvimento desde 2020 que usa a metodologia ‘Web as Corpus’ aprimorada com preocupações de proveniência e tipologia (WaC-wiPT). O corpus pretende ser utilizado tanto como fonte confiável para pesquisas em Linguística quanto como importante recurso para pesquisas em Ciência da Computação sobre modelos de linguagem. Acima de tudo, este esforço visa retirar o português do conjunto das línguas de poucos recursos. Este artigo detalha a metodologia de construção do CAROLINA, com especial atenção ao problema da descrição de tipologia e proveniência segundo padrões internacionais; descrevemos também brevemente a sua relação com outros corpora existentes, seu estado atual de desenvolvimento e seus rumos futuros.
- Imprenta:
- Source:
- Título: Cadernos de Linguística
- ISSN: 2675-4916
- Volume/Número/Paginação/Ano: v. 6, n. 4, artigo n. e812, p. 1-24, 2025
- Este periódico é de acesso aberto
- Este artigo NÃO é de acesso aberto
-
ABNT
FINGER, Marcelo et al. Building Carolina: metadata for provenance and typology in a corpus of contemporary Brazilian Portuguese. Cadernos de Linguística, v. 6, n. artigo e812, p. 1-24, 2025Tradução . . Disponível em: https://doi.org/10.25189/2675-4916.2025.v6.n4.id812. Acesso em: 13 fev. 2026. -
APA
Finger, M., Sousa, M. C. P. de, Namiuti, C., Monte, V. M. do, Costa, A. S., Serras, F. R., et al. (2025). Building Carolina: metadata for provenance and typology in a corpus of contemporary Brazilian Portuguese. Cadernos de Linguística, 6( artigo e812), 1-24. doi:10.25189/2675-4916.2025.v6.n4.id812 -
NLM
Finger M, Sousa MCP de, Namiuti C, Monte VM do, Costa AS, Serras FR, Sturzeneker ML, Carpi M de M, Palma MF, Lachi GA. Building Carolina: metadata for provenance and typology in a corpus of contemporary Brazilian Portuguese [Internet]. Cadernos de Linguística. 2025 ; 6( artigo e812): 1-24.[citado 2026 fev. 13 ] Available from: https://doi.org/10.25189/2675-4916.2025.v6.n4.id812 -
Vancouver
Finger M, Sousa MCP de, Namiuti C, Monte VM do, Costa AS, Serras FR, Sturzeneker ML, Carpi M de M, Palma MF, Lachi GA. Building Carolina: metadata for provenance and typology in a corpus of contemporary Brazilian Portuguese [Internet]. Cadernos de Linguística. 2025 ; 6( artigo e812): 1-24.[citado 2026 fev. 13 ] Available from: https://doi.org/10.25189/2675-4916.2025.v6.n4.id812 - Exploring computational discernibility of discourse domains in brazilian portuguese within the Carolina corpus
- Analysing and validating language complexity metrics across South American indigenous languages
- Por uma filologia virtual: o caso das atas da Câmara de São Paulo (1562-1596)
- verBERT: automating brazilian case law document multi-label categorization using BERT
- DHandES - First Workshop on Digital Humanities and e-Science: preface
- "e declarou que ela não tinha senão natura de mulher": edição digital e análise paleográfica de dois processos inquisitoriais portugueses de sodomia homoerótica feminina do século XVI
- Algoritmos baseados em atenção neural para a automação da classicação multirrótulo de acórdãos jurídicos
- As formas de tratamento em documentos paulistas do século XVIII
- As Cartas Marienses (1935-1995) compõem o volume 4 da coleção Cartas Brasileiras ... [Orelha]
- Documentos setecentistas: edição semidiplomática e tratamento das sibilantes
Informações sobre o DOI: 10.25189/2675-4916.2025.v6.n4.id812 (Fonte: oaDOI API)
Download do texto completo
| Tipo | Nome | Link | |
|---|---|---|---|
| 3284620_-_Building_Caroli... |
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
