has abstract
| - In linguistics and language technology, a language resource is a "[composition] of linguistic material used in the construction, improvement and/or evaluation of language processing applications, (...) in language and language-mediated research studies and applications." According to Bird & Simons (2003), this includes 1.
* data, i.e. "any information that documents or describes a language, such as a published monograph, a computer data file, or even a shoebox full of handwritten index cards. The information could range in content from unanalyzed sound recordings to fully transcribed and annotated texts to a complete descriptive grammar", 2.
* tools, i.e., "computational resources that facilitate creating, viewing, querying, or otherwise using language data", and 3.
* advice, i.e., "any information about what data sources are reliable, what tools are appropriate in a given situation, what practices to follow when creating new data". The latter aspect is usually referred to as "best practices" or "(community) standards". In a narrower sense, language resource is specifically applied to resources that are available in digital form, and then, "encompassing (a) data sets (textual, multimodal/multimedia and lexical data, grammars, language models, etc.) in machine readable form, and (b) tools/technologies/services used for their processing and management". (en)
- 言語資源(げんごしげん、英: Language resource)とは、自然言語を研究するさいに用いられる資源のこと。辞書やコーパス、シソーラス、インフォーマントなどがこれにあたる。電子化された言語資源は自然言語処理技術の研究に不可欠であるが、作成に非常に手間がかかるため、いまだにその数は少なく、一般にとても高価である。 近年WWWが普及したこともあり、これらの資源をインターネット上から自動的に獲得しようとする試みも数多くなされてはいるが、一般的なネットワーク上の文章にはノイズが多すぎて価値ある情報を収集するのは難しいとされる。 また、言語資源には著作権の問題が重くのしかかっている。それはたとえ資源を作っていても、それを公開するのは権利上の許可を得なければならないからである。ウィキペディアはこの問題に対する解決策の一つとなるべく運営されている。 (ja)
|