About: American National Corpus     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : yago:WikicatEnglishCorpora, within Data Space : dbpedia.demo.openlinksw.com associated with source document(s)
QRcode icon
http://dbpedia.demo.openlinksw.com/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FAmerican_National_Corpus

The American National Corpus (ANC) is a text corpus of American English containing 22 million words of written and spoken data produced since 1990. Currently, the ANC includes a range of genres, including emerging genres such as email, tweets, and web data that are not included in earlier corpora such as the British National Corpus. It is annotated for part of speech and lemma, shallow parse, and named entities. Continued growth of the OANC and MASC relies on contributions of data and annotations from the computational linguistics and corpus linguistics communities.

AttributesValues
rdf:type
rdfs:label
  • American National Corpus (en)
  • Национальный корпус американского английского (ru)
  • Американський національний корпус англійської мови (uk)
rdfs:comment
  • The American National Corpus (ANC) is a text corpus of American English containing 22 million words of written and spoken data produced since 1990. Currently, the ANC includes a range of genres, including emerging genres such as email, tweets, and web data that are not included in earlier corpora such as the British National Corpus. It is annotated for part of speech and lemma, shallow parse, and named entities. Continued growth of the OANC and MASC relies on contributions of data and annotations from the computational linguistics and corpus linguistics communities. (en)
  • Американський національний корпус (American National Corpus) — це текстовий корпус американської англійської, що містить 22 мільйони слів письмових і усних даних, створених з 1990 року. Наразі ANC включає низку жанрів, такі як електронна пошта, твіти та веб-дані, які не включені в попередні корпуси, такі як Британський національний корпус . Він розмічений та лематизований для частин мови, має синтаксичну розмітку. Подальше зростання OANC та MASC залежить від внесків даних та анотацій від спільнот комп’ютерної лінгвістики та корпусної лінгвістики. (uk)
  • Национальный корпус американского английского (англ. American National Corpus, ANC) — корпус текстов американского английского языка, содержащий 22 миллиона слов из письменных и устных источников, вышедших с 1990 года. ANC включает в себя ряд текстов из новых источников, включая такие как электронная почта, твиты и тексты с веб-страниц, которые не включены в более ранние корпуса английского языка, такие как Британский национальный корпус. В нём осуществлён частеречный конкорданс с лемматизацией, включая имена собственные, и . (ru)
dcterms:subject
Wikipage page ID
Wikipage revision ID
Link from a Wikipage to another Wikipage
Link from a Wikipage to an external page
sameAs
dbp:wikiPageUsesTemplate
has abstract
  • The American National Corpus (ANC) is a text corpus of American English containing 22 million words of written and spoken data produced since 1990. Currently, the ANC includes a range of genres, including emerging genres such as email, tweets, and web data that are not included in earlier corpora such as the British National Corpus. It is annotated for part of speech and lemma, shallow parse, and named entities. The ANC is available from the Linguistic Data Consortium. A fifteen million word subset of the corpus, called the Open American National Corpus (OANC), is freely available with no restrictions on its use from the ANC Website. The corpus and its annotations are provided according to the specifications of ISO/TC 37 SC4's Linguistic Annotation Framework. By using a freely provided transduction tool (ANC2Go), the corpus and user-chosen annotations are provided in multiple formats, including CoNLL IOB format, the XML format conformant to the XML Corpus Encoding Standard (XCES) (usable with the British National Corpus's XAIRA search engine), a UIMA-compliant format, and formats suitable for input to a wide variety of concordance software. Plugins to import the annotations into General Architecture for Text Engineering (GATE) are also available. The ANC differs from other corpora of English because it is richly annotated, including different part of speech annotations (Penn tags, CLAWS5 and CLAWS7 tags), shallow parse annotations, and annotations for several types of named entities. Additional annotations are added to all or parts of the corpus as they become available, often by contributions from other projects. Unlike on-line searchable corpora, which due to copyright restrictions allow access only to individual sentences, the entire ANC is available to enable research involving, for example, development of statistical language models and full-text linguistic annotation. ANC annotations are automatically produced and unvalidated. A 500,000 word subset called the Manually Annotated Sub-Corpus (MASC) is annotated for approximately 20 different kinds of linguistic annotations, all of which have been hand-validated or manually produced. These include Penn Treebank syntactic annotation, WordNet sense annotation, FrameNet semantic frame annotations, among others. Like the OANC, MASC is freely available for any use, and can be downloaded from the ANC site or from the Linguistic Data Consortium. It is also distributed in part-of-speech tagged form with the Natural Language Toolkit. The ANC and its sub-corpora differ from similar corpora primarily in the range of linguistic annotations provided and the inclusion of modern genres that do not appear in resources like the British National Corpus. Also, because the initial target use of the corpora was the development of statistical language models, the full data and all annotations are available, thus differing from the Corpus of Contemporary American English (COCA) which is available only selectively through a web browser. Continued growth of the OANC and MASC relies on contributions of data and annotations from the computational linguistics and corpus linguistics communities. (en)
  • Национальный корпус американского английского (англ. American National Corpus, ANC) — корпус текстов американского английского языка, содержащий 22 миллиона слов из письменных и устных источников, вышедших с 1990 года. ANC включает в себя ряд текстов из новых источников, включая такие как электронная почта, твиты и тексты с веб-страниц, которые не включены в более ранние корпуса английского языка, такие как Британский национальный корпус. В нём осуществлён частеречный конкорданс с лемматизацией, включая имена собственные, и . ANC доступен для участников . Ресурс (подкорпус), содержащий 15 миллионов слов корпуса, называется Open American National Corpus (OANC) и находится в открытом доступе с сайта ANC. Тексты Корпуса формируются в соответствии с требованиями технического комитета «Linguistic Annotation Framework». Благодаря находящемуся в открытом доступе инструменту трансдукции ANC2Go, фрагменты корпуса и аннотации, созданные пользователями, представлены в нескольких форматах, таких как CoNLL IOB — XML-формат, соответствующий стандарту кодирования (который можно использовать в поисковой системе XAIRA Британского национального корпуса), -совместимый формат, и форматы, подходящие для широкого спектра программ конкорданса. Также доступны плагины для импорта аннотаций в систему обработки естественного языка GATE. ANC отличается от других корпусов английского языка широкой аннотированностью, включая различные частеречевые разметки (Penn tags, CLAWS5 и CLAWS7 tags), и аннотации для нескольких типов именованных объектов. Дополнительные аннотации добавляются ко всему корпусу или его частям по мере поступления, нередко как результаты реализации других проектов. В отличие от онлайновых корпусов текстов, которые из-за ограничений, обусловленных авторским правом, предоставляют доступ только к отдельным предложениям, весь корпус текстов ANC доступен для проведения исследований, включая разработку статистических языковых моделей и полнотекстовых лингвистических аннотаций. Аннотации ANC создаются автоматически и не проверяются. Раздел OANC из 500 000 слов, известный как (MASC) аннотируется для примерно 20 различных видов лингвистических аннотаций, которые проверяются или создаются вручную. К ним относятся синтаксическая аннотация Penn Treebank, семантические сети WordNet и , и другие. Подобно OANC, MASC находится в свободном доступе для любого использования и может быть загружен с сайта ANC или Консорциума лингвистических данных. Он также распространяется с пакетом библиотек и программ для символьной и статистической обработки естественного языка Natural Language Toolkit. ANC и его подкорпуса отличаются от аналогичных текстовых корпусов главным образом характеристиками лингвистических аннотаций и включением текстов современных жанров, которые не содержатся в таких ресурсах, как, например, Британский национальный корпус. Кроме того, поскольку первоначальное целевое назначение ANC — разработка статистических моделей языка, пользователям ANC доступны полные данные и все аннотации, в отличие от Корпуса современного американского английского языка (COCA), чьи тексты доступны только выборочно через веб-браузер. Рост баз текстов OANC и MASC продолжается благодаря пополнению данных и аннотаций, производимых сообществами компьютерной лингвистики и корпусной лингвистики. (ru)
  • Американський національний корпус (American National Corpus) — це текстовий корпус американської англійської, що містить 22 мільйони слів письмових і усних даних, створених з 1990 року. Наразі ANC включає низку жанрів, такі як електронна пошта, твіти та веб-дані, які не включені в попередні корпуси, такі як Британський національний корпус . Він розмічений та лематизований для частин мови, має синтаксичну розмітку. ANC доступний у Консорціумі лінгвістичних даних . Підмножина з п’ятнадцяти мільйонів слів цього корпусу, яка називається Open American National Corpus (OANC), є вільно доступною без обмежень щодо використання на веб-сайті ANC. Корпус та його анотації надаються відповідно до специфікацій Linguistic Annotation Framework. Використовуючи безкоштовно наданий інструмент трансдукці, корпус і анотації, вибрані користувачем, надаються в кількох форматах: формат CoNLL IOB; формат XML, що відповідає стандарту кодування XML Corpus (можна використовувати з пошуковою системою XAIRA Британського національного корпусу); формат, сумісний із UIMA; та формати, придатні для введення в широкий спектр програмного забезпечення для конкордації. Також доступні плагіни для імпорту анотацій до General Architecture for Text Engineering. ANC відрізняється від інших корпусів англійської мови тим, що має багато анотацій, включаючи анотації різних частин мови, анотації неглибокого аналізу та анотації для кількох типів іменованих об’єктів . Додаткові анотації додаються до всього або частин корпусу, коли вони стають доступними, часто за рахунок внесків інших проектів. На відміну від онлайн-корпусів із можливістю пошуку, які через обмеження авторських прав надають доступ лише до окремих речень, весь ANC доступний для досліджень, що включають, наприклад, розробку статистичних мовних моделей та повнотекстових лінгвістичних анотацій. Анотації ANC створюються автоматично та не перевіряються. Піднабір із 500 000 слів, який називається підкорпусом з анотаціями вручну (MASC), анотується приблизно для 20 різних видів лінгвістичних анотацій, усі з яких були перевірені вручну або створені вручну. До них належать синтаксичні анотації Penn Treebank, семантичні анотації WordNet, семантичні анотації кадрів FrameNet та інші. Як і OANC, MASC є вільно доступним для будь-якого використання, і його можна завантажити з сайту ANC або з Консорціуму лінгвістичних даних . Він також розповсюджується у формі з тегами частини мови разом із Набором інструментів природної мови . ANC та його підкорпуси відрізняються від подібних корпусів насамперед діапазоном наданих лінгвістичних анотацій та включенням сучасних жанрів, які не з’являються в таких ресурсах, як Британський національний корпус . Крім того, оскільки початковим цільовим використанням корпусів була розробка статистичних мовних моделей, доступні повні дані та всі анотації, що відрізняється від Корпусу сучасної американської англійської мови (COCA), який доступний лише вибірково через веб-браузер. Подальше зростання OANC та MASC залежить від внесків даних та анотацій від спільнот комп’ютерної лінгвістики та корпусної лінгвістики. (uk)
gold:hypernym
prov:wasDerivedFrom
page length (characters) of wiki page
foaf:isPrimaryTopicOf
is Link from a Wikipage to another Wikipage of
is Wikipage disambiguates of
is foaf:primaryTopic of
Faceted Search & Find service v1.17_git139 as of Feb 29 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 08.03.3330 as of Mar 19 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (378 GB total memory, 52 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software