About: American National Corpus

Facets (new session)
Description
Metadata
Settings
- Rule:
- Inverse Functional Properties:
- "Same As":

About: American National Corpus Goto Sponge NotDistinct Permalink

An Entity of Type : yago:WikicatEnglishCorpora, within Data Space : dbpedia.demo.openlinksw.com associated with source document(s)
QRcode icon

http://dbpedia.demo.openlinksw.com/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FAmerican_National_Corpus

The American National Corpus (ANC) is a text corpus of American English containing 22 million words of written and spoken data produced since 1990. Currently, the ANC includes a range of genres, including emerging genres such as email, tweets, and web data that are not included in earlier corpora such as the British National Corpus. It is annotated for part of speech and lemma, shallow parse, and named entities. Continued growth of the OANC and MASC relies on contributions of data and annotations from the computational linguistics and corpus linguistics communities.

Attributes	Values
rdf:type	work yago:Abstraction100002137 yago:Assets113329641 yago:Capital113353607 yago:Possession100032613 yago:Principal113355868 yago:Relation100031921 yago:WikicatEnglishCorpora
rdfs:label	American National Corpus (en) Национальный корпус американского английского (ru) Американський національний корпус англійської мови (uk)
rdfs:comment	The American National Corpus (ANC) is a text corpus of American English containing 22 million words of written and spoken data produced since 1990. Currently, the ANC includes a range of genres, including emerging genres such as email, tweets, and web data that are not included in earlier corpora such as the British National Corpus. It is annotated for part of speech and lemma, shallow parse, and named entities. Continued growth of the OANC and MASC relies on contributions of data and annotations from the computational linguistics and corpus linguistics communities. (en) Американський національний корпус (American National Corpus) — це текстовий корпус американської англійської, що містить 22 мільйони слів письмових і усних даних, створених з 1990 року. Наразі ANC включає низку жанрів, такі як електронна пошта, твіти та веб-дані, які не включені в попередні корпуси, такі як Британський національний корпус . Він розмічений та лематизований для частин мови, має синтаксичну розмітку. Подальше зростання OANC та MASC залежить від внесків даних та анотацій від спільнот комп’ютерної лінгвістики та корпусної лінгвістики. (uk) Национальный корпус американского английского (англ. American National Corpus, ANC) — корпус текстов американского английского языка, содержащий 22 миллиона слов из письменных и устных источников, вышедших с 1990 года. ANC включает в себя ряд текстов из новых источников, включая такие как электронная почта, твиты и тексты с веб-страниц, которые не включены в более ранние корпуса английского языка, такие как Британский национальный корпус. В нём осуществлён частеречный конкорданс с лемматизацией, включая имена собственные, и . (ru)
dcterms:subject	English corpora Computational linguistics Online databases Applied linguistics Linguistic research
Wikipage page ID	2746499 (xsd:integer)
Wikipage revision ID	1122736986 (xsd:integer)
Link from a Wikipage to another Wikipage	English corpora Corpus of Contemporary American English Oxford English Corpus General Architecture for Text Engineering Lexical category UIMA Linguistic Data Consortium American English FrameNet British National Corpus Lemma (morphology) Text corpus Computational linguistics Online databases Applied linguistics Linguistic research Natural Language Toolkit Shallow parsing WordNet ISO/TC 37 Named entity Manually Annotated Sub-Corpus (MASC) XCES
Link from a Wikipage to an external page	https://anc.org/data/masc http://www.lingref.com/cpp/ausnc/2008/paper2293.pdf https://web.archive.org/web/20160404152309/http:/www.cis.upenn.edu/~treebank/ http://www.cs.vassar.edu/~ide/papers/anc-lrec04.pdf http://www.aclweb.org/anthology/P10-2013.pdf https://anc.org/ https://anc.org/software/anc2go/
sameAs	American National Corpus American National Corpus American National Corpus American National Corpus American National Corpus American National Corpus
dbp:wikiPageUsesTemplate	dbt:Corpus_linguistics
has abstract	The American National Corpus (ANC) is a text corpus of American English containing 22 million words of written and spoken data produced since 1990. Currently, the ANC includes a range of genres, including emerging genres such as email, tweets, and web data that are not included in earlier corpora such as the British National Corpus. It is annotated for part of speech and lemma, shallow parse, and named entities. The ANC is available from the Linguistic Data Consortium. A fifteen million word subset of the corpus, called the Open American National Corpus (OANC), is freely available with no restrictions on its use from the ANC Website. The corpus and its annotations are provided according to the specifications of ISO/TC 37 SC4's Linguistic Annotation Framework. By using a freely provided transduction tool (ANC2Go), the corpus and user-chosen annotations are provided in multiple formats, including CoNLL IOB format, the XML format conformant to the XML Corpus Encoding Standard (XCES) (usable with the British National Corpus's XAIRA search engine), a UIMA-compliant format, and formats suitable for input to a wide variety of concordance software. Plugins to import the annotations into General Architecture for Text Engineering (GATE) are also available. The ANC differs from other corpora of English because it is richly annotated, including different part of speech annotations (Penn tags, CLAWS5 and CLAWS7 tags), shallow parse annotations, and annotations for several types of named entities. Additional annotations are added to all or parts of the corpus as they become available, often by contributions from other projects. Unlike on-line searchable corpora, which due to copyright restrictions allow access only to individual sentences, the entire ANC is available to enable research involving, for example, development of statistical language models and full-text linguistic annotation. ANC annotations are automatically produced and unvalidated. A 500,000 word subset called the Manually Annotated Sub-Corpus (MASC) is annotated for approximately 20 different kinds of linguistic annotations, all of which have been hand-validated or manually produced. These include Penn Treebank syntactic annotation, WordNet sense annotation, FrameNet semantic frame annotations, among others. Like the OANC, MASC is freely available for any use, and can be downloaded from the ANC site or from the Linguistic Data Consortium. It is also distributed in part-of-speech tagged form with the Natural Language Toolkit. The ANC and its sub-corpora differ from similar corpora primarily in the range of linguistic annotations provided and the inclusion of modern genres that do not appear in resources like the British National Corpus. Also, because the initial target use of the corpora was the development of statistical language models, the full data and all annotations are available, thus differing from the Corpus of Contemporary American English (COCA) which is available only selectively through a web browser. Continued growth of the OANC and MASC relies on contributions of data and annotations from the computational linguistics and corpus linguistics communities. (en) Национальный корпус американского английского (англ. American National Corpus, ANC) — корпус текстов американского английского языка, содержащий 22 миллиона слов из письменных и устных источников, вышедших с 1990 года. ANC включает в себя ряд текстов из новых источников, включая такие как электронная почта, твиты и тексты с веб-страниц, которые не включены в более ранние корпуса английского языка, такие как Британский национальный корпус. В нём осуществлён частеречный конкорданс с лемматизацией, включая имена собственные, и . ANC доступен для участников . Ресурс (подкорпус), содержащий 15 миллионов слов корпуса, называется Open American National Corpus (OANC) и находится в открытом доступе с сайта ANC. Тексты Корпуса формируются в соответствии с требованиями технического комитета «Linguistic Annotation Framework». Благодаря находящемуся в открытом доступе инструменту трансдукции ANC2Go, фрагменты корпуса и аннотации, созданные пользователями, представлены в нескольких форматах, таких как CoNLL IOB — XML-формат, соответствующий стандарту кодирования (который можно использовать в поисковой системе XAIRA Британского национального корпуса), -совместимый формат, и форматы, подходящие для широкого спектра программ конкорданса. Также доступны плагины для импорта аннотаций в систему обработки естественного языка GATE. ANC отличается от других корпусов английского языка широкой аннотированностью, включая различные частеречевые разметки (Penn tags, CLAWS5 и CLAWS7 tags), и аннотации для нескольких типов именованных объектов. Дополнительные аннотации добавляются ко всему корпусу или его частям по мере поступления, нередко как результаты реализации других проектов. В отличие от онлайновых корпусов текстов, которые из-за ограничений, обусловленных авторским правом, предоставляют доступ только к отдельным предложениям, весь корпус текстов ANC доступен для проведения исследований, включая разработку статистических языковых моделей и полнотекстовых лингвистических аннотаций. Аннотации ANC создаются автоматически и не проверяются. Раздел OANC из 500 000 слов, известный как (MASC) аннотируется для примерно 20 различных видов лингвистических аннотаций, которые проверяются или создаются вручную. К ним относятся синтаксическая аннотация Penn Treebank, семантические сети WordNet и , и другие. Подобно OANC, MASC находится в свободном доступе для любого использования и может быть загружен с сайта ANC или Консорциума лингвистических данных. Он также распространяется с пакетом библиотек и программ для символьной и статистической обработки естественного языка Natural Language Toolkit. ANC и его подкорпуса отличаются от аналогичных текстовых корпусов главным образом характеристиками лингвистических аннотаций и включением текстов современных жанров, которые не содержатся в таких ресурсах, как, например, Британский национальный корпус. Кроме того, поскольку первоначальное целевое назначение ANC — разработка статистических моделей языка, пользователям ANC доступны полные данные и все аннотации, в отличие от Корпуса современного американского английского языка (COCA), чьи тексты доступны только выборочно через веб-браузер. Рост баз текстов OANC и MASC продолжается благодаря пополнению данных и аннотаций, производимых сообществами компьютерной лингвистики и корпусной лингвистики. (ru) Американський національний корпус (American National Corpus) — це текстовий корпус американської англійської, що містить 22 мільйони слів письмових і усних даних, створених з 1990 року. Наразі ANC включає низку жанрів, такі як електронна пошта, твіти та веб-дані, які не включені в попередні корпуси, такі як Британський національний корпус . Він розмічений та лематизований для частин мови, має синтаксичну розмітку. ANC доступний у Консорціумі лінгвістичних даних . Підмножина з п’ятнадцяти мільйонів слів цього корпусу, яка називається Open American National Corpus (OANC), є вільно доступною без обмежень щодо використання на веб-сайті ANC. Корпус та його анотації надаються відповідно до специфікацій Linguistic Annotation Framework. Використовуючи безкоштовно наданий інструмент трансдукці, корпус і анотації, вибрані користувачем, надаються в кількох форматах: формат CoNLL IOB; формат XML, що відповідає стандарту кодування XML Corpus (можна використовувати з пошуковою системою XAIRA Британського національного корпусу); формат, сумісний із UIMA; та формати, придатні для введення в широкий спектр програмного забезпечення для конкордації. Також доступні плагіни для імпорту анотацій до General Architecture for Text Engineering. ANC відрізняється від інших корпусів англійської мови тим, що має багато анотацій, включаючи анотації різних частин мови, анотації неглибокого аналізу та анотації для кількох типів іменованих об’єктів . Додаткові анотації додаються до всього або частин корпусу, коли вони стають доступними, часто за рахунок внесків інших проектів. На відміну від онлайн-корпусів із можливістю пошуку, які через обмеження авторських прав надають доступ лише до окремих речень, весь ANC доступний для досліджень, що включають, наприклад, розробку статистичних мовних моделей та повнотекстових лінгвістичних анотацій. Анотації ANC створюються автоматично та не перевіряються. Піднабір із 500 000 слів, який називається підкорпусом з анотаціями вручну (MASC), анотується приблизно для 20 різних видів лінгвістичних анотацій, усі з яких були перевірені вручну або створені вручну. До них належать синтаксичні анотації Penn Treebank, семантичні анотації WordNet, семантичні анотації кадрів FrameNet та інші. Як і OANC, MASC є вільно доступним для будь-якого використання, і його можна завантажити з сайту ANC або з Консорціуму лінгвістичних даних . Він також розповсюджується у формі з тегами частини мови разом із Набором інструментів природної мови . ANC та його підкорпуси відрізняються від подібних корпусів насамперед діапазоном наданих лінгвістичних анотацій та включенням сучасних жанрів, які не з’являються в таких ресурсах, як Британський національний корпус . Крім того, оскільки початковим цільовим використанням корпусів була розробка статистичних мовних моделей, доступні повні дані та всі анотації, що відрізняється від Корпусу сучасної американської англійської мови (COCA), який доступний лише вибірково через веб-браузер. Подальше зростання OANC та MASC залежить від внесків даних та анотацій від спільнот комп’ютерної лінгвістики та корпусної лінгвістики. (uk)
gold:hypernym	Corpus
prov:wasDerivedFrom	wikipedia-en:American_National_Corpus?oldid=1122736986&ns=0
page length (characters) of wiki page	4840 (xsd:nonNegativeInteger)
foaf:isPrimaryTopicOf	wikipedia-en:American_National_Corpus
is Link from a Wikipage to another Wikipage of	Beryl Atkins List of online databases Corpus of Contemporary American English Oxford English Corpus German Reference Corpus Concordance (publishing) Corpus linguistics British National Corpus ANC (disambiguation) Manually Annotated Sub-Corpus Near-native speaker List of text corpora
is Wikipage disambiguates of	ANC (disambiguation)
is foaf:primaryTopic of	wikipedia-en:American_National_Corpus

Faceted Search & Find service v1.17_git139 as of Feb 29 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 08.03.3330 as of Mar 19 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (378 GB total memory, 52 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software