About: N-gram

Facets (new session)
Description
Metadata
Settings
- Rule:
- Inverse Functional Properties:
- "Same As":

About: N-gram Goto Sponge NotDistinct Permalink

An Entity of Type : yago:WikicatAlgorithms, within Data Space : dbpedia.demo.openlinksw.com associated with source document(s)
QRcode icon

http://dbpedia.demo.openlinksw.com/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FN-gram

In the fields of computational linguistics and probability, an n-gram (sometimes also called Q-gram) is a contiguous sequence of n items from a given sample of text or speech. The items can be phonemes, syllables, letters, words or base pairs according to the application. The n-grams typically are collected from a text or speech corpus. When the items are words, n-grams may also be called shingles.

Attributes	Values
rdf:type	Thing yago:WikicatCryptographicAttacks yago:Abstraction100002137 yago:Act100030358 yago:Activity100407535 yago:Algorithm105847438 yago:Attack100972621 yago:Event100029378 yago:Operation100955060 yago:Procedure101023820 yago:PsychologicalFeature100023100 yago:YagoPermanentlyLocatedEntity yago:Rule105846932 yago:WikicatAlgorithms
rdfs:label	N-grama (ca) N-gram (cs) N-Gramm (de) N-grama (es) N-grama (eu) N-gramma (it) N-gramme (fr) N-gram (en) N-gram (pl) N-grama (pt) N-грамма (ru) N元语法 (zh) N-грама (uk)
rdfs:comment	Donada una seqüència, anomenem n-grama a una subseqüència de n elements. Els elements poden ser tant lletres com paraules. S'utilitzen en diverses tasques de la traducció automàtica estadística, i també en altres camps de la investigació científica com l'anàlisi de seqüències genètiques. Anomenem unigrama al n-grama quan n=1, bigrama amb n=2, trigrama amb n=3, etc. Els models de n-grames també es coneixen com a "Models de Markov no-ocults", ja que es coneixen les probabilitats de transició entre els diferents estats. (ca) N-gram je definován jako sled n po sobě jdoucích položek z dané posloupnosti. Ze sémantického pohledu může být tato posloupnost buď posloupností slov nebo písmen, nebo čehokoli jiného. V praxi se častěji vyskytují n-gramy jako sled slov. Sled dvou po sobě jdoucích slov bývá často označován jako bigram, pro sled tří položek je zažitý pojem . Od čtyř a výše se používá označení n-gram, kde n je nahrazeno počtem za sebou jdoucích elementů. Při řešení úloh z oblasti počítačového zpracování přirozeného jazyka se na reprezentaci textu využívají ve většině případů slova nebo n-gramy slov. (cs) N-grama bat sekuentzia baten barne dagoen eta n elementuk osatutako azpi-sekuentzia da. N-gramak lengoaia naturalen prozesamendu estatistikoan eta sekuentzia genetikoen analisian erabili ohi dira. Elementuok mota ezberdinetakoak izan daitezke: letrak edo hitzak, esate baterako. 1 neurriko n-gramei unigrama deritze; 2 neurrikoei ; 3 neurrikoei ; eta 4tik gorakoei n-grama edo (n-1) ordenako Markoven eredu deitzen zaie, n hori zenbakiagatik ordeztu daitekeelarik (4-grama, 5-grama,...). (eu) Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1. (it) N-грама — послідовність з n елементів. З семантичної точки зору, це може бути послідовність звуків, складів, слів або букв. На практиці частіше зустрічається N-грами як ряд слів, стійкі словосполучення називають колокацію. Послідовність з двох послідовних елементів часто називають біграм, послідовність з трьох елементів називається триграма. Не менш чотирьох і вище елементів позначаються як N-грами, N замінюється на кількість послідовних елементів. (uk) N-грамма — последовательность из n элементов. С семантической точки зрения, это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамма как ряд слов, устойчивые словосочетания называют коллокацией. Последовательность из двух последовательных элементов часто называют биграмма, последовательность из трёх элементов называется триграмма. Не менее четырёх и выше элементов обозначаются как N-грамма, N заменяется на количество последовательных элементов. (ru) n元语法（英語：n-gram）指文本中连续出现的n个语词。n元语法模型是基于(n-1)阶马尔可夫链的一种概率语言模型，通过n个语词出现的概率来推断语句的结构。这一模型被广泛应用于概率论、通信理论、计算语言学（如基于统计的自然语言处理）、计算生物学（如序列分析）、数据压缩等领域。当n分别为1、2、3时，又分别称为一元语法（unigram）、二元语法（bigram）与三元语法（trigram）。 (zh) Ein N-Gramm, manchmal auch Q-Gramm genannt, ist das Ergebnis der Zerlegung eines Textes in Fragmente. Der Text wird dabei zerlegt, und jeweils aufeinanderfolgende Fragmente werden als N-Gramm zusammengefasst. Die Fragmente können Buchstaben, Phoneme, Wörter und Ähnliches sein. N-Gramme finden Anwendung in der Kryptologie und Korpuslinguistik, speziell auch in der Computerlinguistik, Quantitativen Linguistik und Computerforensik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt und in Datensätzen zusammengefasst. Drei Datensätze von N-Grammen aus Google Books mit den Stichtagen Juli 2009, Juli 2012 und Februar 2020 wurden mit einer Weboberfläche und grafischer Auswertung in Form von Diagrammen versehen und unter (de) Un n-grama es una subsecuencia de n elementos de una secuencia dada. El estudio de los n-gramas es interesante en diversas áreas del conocimiento. Por ejemplo, es usado en el estudio del lenguaje natural, en el estudio de las secuencias de genes y en el estudio de las secuencias de aminoácidos. Se puede usar gramas para casi todos los ámbitos. Por ejemplo, se han usado n-gramas para extraer características comunes de grandes conjuntos de imágenes de la Tierra tomadas desde satélite, y para determinar a qué parte de la Tierra pertenece una imagen dada. (es) In the fields of computational linguistics and probability, an n-gram (sometimes also called Q-gram) is a contiguous sequence of n items from a given sample of text or speech. The items can be phonemes, syllables, letters, words or base pairs according to the application. The n-grams typically are collected from a text or speech corpus. When the items are words, n-grams may also be called shingles. (en) Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple « par exemple ») il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille . Cette modélisation correspond en fait à un modèle de Markov d'ordre où seules les dernières observations sont utilisées pour la prédiction de la lettre suivante. Ainsi un bigramme est un modèle de Markov d'ordre 2. (fr) N-gram – model językowy stosowany w rozpoznawaniu mowy. N-gramy opierają się na statystykach i służą do przewidywania kolejnego elementu sekwencji. Stosowane są głównie do słów, jak również na przykład do fonemów (a także do zastosowań niezwiązanych z lingwistyką, jak np. ). Głównymi zaletami n-gramów są prostota i skalowalność. Poprzez zmianę n można tym samym schematem otrzymywać zarówno modele niewymagające wielu danych treningowych, ale niedające dużej mocy predykcyjnej, jak i modele wymagające wielu danych, ale oferujące duże możliwości predykcyjne. (pl) Nos campos de linguística computacional e probabilidade, um n-grama é uma sequência contígua de n itens de uma determinada amostra de texto ou fala. Os itens podem ser fonemas, sílabas, letras, palavras ou pares de bases de acordo com a aplicação. Os n-gramas normalmente são coletados de um corpus de texto ou fala. (pt)
differentFrom	Engram (disambiguation)
foaf:depiction
dcterms:subject	Probabilistic models Computational linguistics Corpus linguistics Natural language processing Speech recognition Language modeling
Wikipage page ID	986182 (xsd:integer)
Wikipage revision ID	1116515858 (xsd:integer)
Link from a Wikipage to another Wikipage	Bayesian inference Probabilistic models BLAST Probability distribution Pseudocount Multinomial distribution Natural language processing Character (computing) Character (symbol) Vector space Cardinal number (linguistics) Dependency grammar Information retrieval Intelligent character recognition Letter (alphabet) String kernel Corpus of Contemporary American English Cosine similarity Oligomer Optical character recognition Claude Shannon Cryptanalysis Phonemes Likelihood Likelihood function Machine learning Cluster analysis Collocation Communication theory Computational biology Computational linguistics Feature engineering Feature extraction Whitespace character Markov model Autocorrect Additive smoothing Data compression Dissociated press G-test K-mer Language identification Language model Linear interpolation Space–time tradeoff Amino acid DNA sequencing Base pair Good–Turing frequency estimation Grapheme

Faceted Search & Find service v1.17_git139 as of Feb 29 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 08.03.3330 as of Mar 19 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (378 GB total memory, 67 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software