In natural language processing and information retrieval, explicit semantic analysis (ESA) is a vectoral representation of text (individual words or entire documents) that uses a document corpus as a knowledge base. Specifically, in ESA, a word is represented as a column vector in the tf–idf matrix of the text corpus and a document (string of words) is represented as the centroid of the vectors representing its words. Typically, the text corpus is English Wikipedia, though other corpora including the Open Directory Project have been used.
Attributes | Values |
---|
rdfs:label
| - Explicit semantic analysis (en)
- 명시 의미 분석 (ko)
|
rdfs:comment
| - 자연언어 처리 및 정보검색에서 명시 의미 분석 (Explicit Semantic Analysis, ESA)는 문서 코퍼스를 지식 베이스로 사용하여 개별 단어 혹은 전체 문서 텍스트를 벡터 형태로 표현하는 것을 가리킨다. 특히 ESA에서는 단어는 해당 텍스트 코퍼스의 tf–idf 행렬의 열벡터로 표현되고, 단어의 나열인 문서는 해당 벡터들의 중심값으로 표현된다. 명시 의미 분석은 Evgeniy Gabrilovich와 Shaul Markovitch에 의해 텍스트 분류를 개선하는 수단으로 고안되었고 두 연구자에 의해 "의미적 관계도"라고 불리는 것을 계산하기 위해 이용되었다. 이 의미적 관계도는 상기 벡터들의 코사인 유사성을 통해 얻어지는데, 이는 "인간이 명시적으로 정의하고 설명하는 개념"의 공간으로 집합적으로 해석된다. "명시 의미 분석"이라는 이름은 잠재 의미 분석(Latent Semantic Analysis)과 대조되는데, 지식 베이스를 사용하기 때문에 벡터 공간으로 만들어지는 개념에 사람이 이해할 수 있는 라벨을 붙일 수가 있기 때문에 이런 이름이 붙었다. (ko)
- In natural language processing and information retrieval, explicit semantic analysis (ESA) is a vectoral representation of text (individual words or entire documents) that uses a document corpus as a knowledge base. Specifically, in ESA, a word is represented as a column vector in the tf–idf matrix of the text corpus and a document (string of words) is represented as the centroid of the vectors representing its words. Typically, the text corpus is English Wikipedia, though other corpora including the Open Directory Project have been used. (en)
|
dct:subject
| |
Wikipage page ID
| |
Wikipage revision ID
| |
Link from a Wikipage to another Wikipage
| |
Link from a Wikipage to an external page
| |
sameAs
| |
dbp:wikiPageUsesTemplate
| |
has abstract
| - In natural language processing and information retrieval, explicit semantic analysis (ESA) is a vectoral representation of text (individual words or entire documents) that uses a document corpus as a knowledge base. Specifically, in ESA, a word is represented as a column vector in the tf–idf matrix of the text corpus and a document (string of words) is represented as the centroid of the vectors representing its words. Typically, the text corpus is English Wikipedia, though other corpora including the Open Directory Project have been used. ESA was designed by Evgeniy Gabrilovich and Shaul Markovitch as a means of improving text categorizationand has been used by this pair of researchers to compute what they refer to as "semantic relatedness" by means of cosine similarity between the aforementioned vectors, collectively interpreted as a space of "concepts explicitly defined and described by humans", where Wikipedia articles (or ODP entries, or otherwise titles of documents in the knowledge base corpus) are equated with concepts. The name "explicit semantic analysis" contrasts with latent semantic analysis (LSA), because the use of a knowledge base makes it possible to assign human-readable labels to the concepts that make up the vector space. (en)
- 자연언어 처리 및 정보검색에서 명시 의미 분석 (Explicit Semantic Analysis, ESA)는 문서 코퍼스를 지식 베이스로 사용하여 개별 단어 혹은 전체 문서 텍스트를 벡터 형태로 표현하는 것을 가리킨다. 특히 ESA에서는 단어는 해당 텍스트 코퍼스의 tf–idf 행렬의 열벡터로 표현되고, 단어의 나열인 문서는 해당 벡터들의 중심값으로 표현된다. 명시 의미 분석은 Evgeniy Gabrilovich와 Shaul Markovitch에 의해 텍스트 분류를 개선하는 수단으로 고안되었고 두 연구자에 의해 "의미적 관계도"라고 불리는 것을 계산하기 위해 이용되었다. 이 의미적 관계도는 상기 벡터들의 코사인 유사성을 통해 얻어지는데, 이는 "인간이 명시적으로 정의하고 설명하는 개념"의 공간으로 집합적으로 해석된다. "명시 의미 분석"이라는 이름은 잠재 의미 분석(Latent Semantic Analysis)과 대조되는데, 지식 베이스를 사용하기 때문에 벡터 공간으로 만들어지는 개념에 사람이 이해할 수 있는 라벨을 붙일 수가 있기 때문에 이런 이름이 붙었다. (ko)
|
gold:hypernym
| |
prov:wasDerivedFrom
| |
page length (characters) of wiki page
| |
foaf:isPrimaryTopicOf
| |
is Link from a Wikipage to another Wikipage
of | |
is Wikipage redirect
of | |
is Wikipage disambiguates
of | |
is known for
of | |
is known for
of | |
is foaf:primaryTopic
of | |