CORPORA DO PORTUGUÊS

Corpus Discurso e Gramática

Corpus de língua falada e escrita, organizado pelo Grupo de Pesquisa Discurso e Gramática, abrange as cidades de Natal, Rio Grande, Juiz de Fora, Niterói e Rio de Janeiro e está dividido por modalidade, faixa etária e escolaridade.

Natal

Rio Grande

Juiz de Fora

Niterói

Rio de Janeiro 1

Rio de Janeiro 2

 

 NURC - RJ

Corpus do Rio de Janeiro do Projeto Norma Urbana Culta-NURC, coletado inicialmente na década de 70 e base de vários trabalhos de língua falada culta. O corpus é dividido conforme sexo, faixa etária e registro: EF (Elocução Formal); D2 (Diálogo entre Dois Informantes) e DID (Diálogo entre Informante e Documentador). Há arquivos escritos e sonoros, além de amostra de recontato na década de 90. Acesso ao corpus aqui. 

 

PHPB - RJ

 Amostra do acervo do Projeto PHPB-Rio (Para uma História do Português Brasileiro - grupo de pesquisa do Rio de Janeiro) desenvolvido por professores do Setor de Língua Portuguesa do Departamento de Letras Vernáculas da UFRJ e integrado ao Projeto Nacional Para a História do Português Brasileiro, é formado por documentos escritos no Brasil, recolhidos nos principais acervos do Rio de Janeiro e de Lisboa, dos séculos XVIII e XIX. Há cartas oficiais, cartas pessoais, peças de teatro e gêneros jornalísticos como cartas dos leitores, anúncios e notícias. 

 

VARPORT: Análise Contrastiva de Variedades do Português

O projeto Varport visa apresentar um quadro contrastivo das variedades européia e brasileira. O corpus escrito apresenta-se distribuído em português europeu e português brasileiro, dos séculos XIX e XX, nos gêneros jornalísticos anúncios, editoriais e notícias. O corpus falado está igualmente distribuído nas duas variedades do português culto e popular.

 

Corpus do Português

O Corpus do Português permite pesquisa em uma base de dados do português brasileiro e europeu composta por 45 milhões de palavras de quase 57 mil textos do século XIV ao século XX. O site oferece recursos de pesquisa que permitem pesquisar palavra ou frases exatas, lemas, colocações etc. É possível, por exemplo, pesquisar por um verbo conjugado em todas as suas formas, ou escolher determinada combinação de palavras. Para consultas rápidas, não é necessário cadastro. Para usar o recurso por mais tempo, é necessário cadastro (gratuito).

 

Corpus Informatizado do Português Medieval

 Corpus organizado por professores do Centro de Linguística da Universidade Nova de Lisboa, o CIPM disponibiliza textos do século XII ao XVI. Exige-se cadastro gratuito para acessar.

 

Corpus Dialectal para o Estudo da Sintaxe - CORDIAL-Sin

O CORDIAL-Sin é direcionado ao estudo da variação dialetal sintática do português europeu. Os arquivos estão em PDF.

 

Corpus Português Fundamental

Projeto iniciado na década de 70 por Lindely Cintra, que busca mapear o vocabulário usado em situações cotidianas. Uma amostra do corpus está disponível para download aqui.

Português Falado: variedades geográficas e sociais

Coordenado pelo Centro de Linguística da Universidade de Lisboa, o projeto Português Falado  já foi concluído e publicado em CD-ROM. O site disponiliza uma amostra do português falado em Angola, Goa, Macau, Timor Leste, Cabo Verde, S. Tomé e Princípe, Guiné Bissau, Brasil e Portuga

 

Corpus de Produções Escritas de Aprendentes PL2 (português como língua estrangeira)

Corpus coletado de alunos do Curso Português para Estrangeiros, ofertado pela Faculdade de Letras da Universidade de Coimbra (FLUC). Para ter acesso ao corpus, é necessário entrar em contato por email para receber login e senha. O material está distribuído conforme a língua materna no aluno e o nível de competência linguística. Acesse aqui.

 

Corpus paralelo português-inglês

Linguee é um serviço online gratuito que permite pesquisar em textos encontrados na internet palavras e frases paralelas em português e inglês. Pode ser útil para pesquisas de vocabulário. 

 

CORPORA DE OUTRAS LÍNGUAS

Corpus del Español

Feito nos mesmos moldes do Corpus do Português, acima descrito, o Corpus del Español tem 100 milhões de palavras e abrange os séculos XIII a XX.

 

Corpus of Contemporary American English - COCA

Organizado pelo mesmo pesquisador do Corpus do Português (Mark Davies), COCA contém 410 milhões de palavras e abrange o período de 1920-2010.

 

TEXTOS NÃO SISTEMATIZADOS QUE PODEM SER USADOS COMO CORPORA 

Discursos políticos

Discursos políticos: página da Câmara dos Deputados que disponibiliza textos de discursos proferidos em determinadas ocasiões.

Discursos dos políticos na Assembléia de Goiás

Discursos do Senado Federal

Discursos do Senador João Durval