Attributes | Values |
---|
rdf:type
| |
rdfs:label
| - توكن (ar)
- Tokenisierung (de)
- Token (Übersetzerbau) (de)
- Tokenisasi (in)
- 字句 (ja)
- Tokenization (lexical analysis) (en)
- Токен (лексический анализ) (ru)
- Токен (uk)
|
rdfs:comment
| - Ein Token (Art.: „das“; Pl.: ‚Tokens‘) ist eine Zeichenkette, der von einer formalen Grammatik ein Typ zugewiesen wird. Das Token bildet die lexikalische Grundeinheit für den Parser. Ein Token entspricht in der Grammatik des Parsers einem Terminalsymbol. Im trivialen Fall sind Tokens die Zeichen der ursprünglichen Eingabe: Zum Beispiel der Buchstabe A wird als Token vom Typ A erkannt. Mehrere Zeichen können im Zuge einer lexikalischen Analyse zu Tokens zusammengefasst werden. Die einem Token zu Grunde liegende Zeichenkette heißt Lexem. Beispiele:(Siehe auch: Compiler)
(de)
- لفظ توكن Token يصف سلسلة من الرموز لها معنى (نوع) محدد في نحو شكلي. تشكل التوكن حجر البناء في الثروة اللغوية التي يعتد عليها الـ تجزئة. في أبسط الأحوال يمكن اعتبار كل حرف منفصل توكن: فمثلا الحرف أ يكون من النوع أ. ولكن لكي يكتمل المنفعة من وراء النحو يتم تعريف أنواع رئيسية ويتم تقسيم الكلمات إليها. فمثلا في اللغة العربية يمكن اعتبار عملية تقسيم الجملة الفعلية إلى فعل وفاعل ومفعول به كـ tokenization.
* بوابة علم الحاسوب (ar)
- Tokenisierung bezeichnet in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene (manchmal auch Sätze, Absätze o. Ä.). Die Tokenisierung des Textes ist Voraussetzung für dessen Weiterverarbeitung, beispielsweise zur syntaktischen Analyse durch Parser, im Textmining oder Information Retrieval. In der Informatik bezeichnet der Begriff analog die Zerlegung eines in einer Programmiersprache verfassten Computerprogrammes in kleinste Einheiten, siehe Token (Übersetzerbau) und Tokenbasierte Kompression. Außerdem wird mit Tokenisierung im Finanzwesen auch der Trend zur Abschaffung des Trägermediums Papier-Urkunde durch digitale Daten bezeichnet. (de)
- Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca. Tokenisasi sering kali dipakai dalam linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses dan digunakan secara daring adalah MorphAdorner dan NLTK Tokenizer. (in)
- То́кен (англ. token) — объект, создающийся из лексемы в процессе лексического анализа («токенизации», от англ. tokenizing). В прикладном программировании понятие токена и его лексема могут не различаться. Шаблон токена — формальное описание класса лексем, которые могут создать данный тип токена. (ru)
- Токен — об'єкт, що утворюється із лексеми в процесі лексичного аналізу. У прикладному програмуванні поняття токену та його лексема можуть не розрізнятися. Шаблон токена — формальний опис класу лексем, які можуть утворити даний тип токена. (uk)
- 字句(じく)とは、プログラミング言語などにおいてソースコードに出現する文字列の中で意味を持つ最小単位で、トークンとも言う。 言語によって違うが、一般的な所としては、if などのキーワード、main や argc などといった関数名や変数名などの識別子、{ } [ ] などの括弧(の片方ずつ)、+ - = * などの演算子(++ や -- や ** や && や || のようなものは2文字でひとつの字句)、; , : などといった区切り文字、3.14159 のようなリテラル、といったようなトークンがある。 多くの場合、プログラミング言語の構文規則はトークン列を定義しており、構文解析の前に、まずトークンを切り出し、必要であれば種類別に分類したりもする。この処理を字句解析と呼ぶ。この処理のため、プログラミング言語の言語仕様では、それぞれの種類のトークンはどのような文字から構成されるかが規定されている。
* (例)識別子は、英字で始まり、その後に0個以上の英字、数字または下線 (_) が続く。ただしキーワードと同じ綴りでないこと。 (ja)
|
Wikipage page ID
| |
Wikipage revision ID
| |
Link from a Wikipage to another Wikipage
| |
Wikipage redirect
| |
sameAs
| |
dbp:wikiPageUsesTemplate
| |
has abstract
| - Ein Token (Art.: „das“; Pl.: ‚Tokens‘) ist eine Zeichenkette, der von einer formalen Grammatik ein Typ zugewiesen wird. Das Token bildet die lexikalische Grundeinheit für den Parser. Ein Token entspricht in der Grammatik des Parsers einem Terminalsymbol. Im trivialen Fall sind Tokens die Zeichen der ursprünglichen Eingabe: Zum Beispiel der Buchstabe A wird als Token vom Typ A erkannt. Mehrere Zeichen können im Zuge einer lexikalischen Analyse zu Tokens zusammengefasst werden. Die einem Token zu Grunde liegende Zeichenkette heißt Lexem. Beispiele:(Siehe auch: Compiler)
(de)
- لفظ توكن Token يصف سلسلة من الرموز لها معنى (نوع) محدد في نحو شكلي. تشكل التوكن حجر البناء في الثروة اللغوية التي يعتد عليها الـ تجزئة. في أبسط الأحوال يمكن اعتبار كل حرف منفصل توكن: فمثلا الحرف أ يكون من النوع أ. ولكن لكي يكتمل المنفعة من وراء النحو يتم تعريف أنواع رئيسية ويتم تقسيم الكلمات إليها. فمثلا في اللغة العربية يمكن اعتبار عملية تقسيم الجملة الفعلية إلى فعل وفاعل ومفعول به كـ tokenization.
* بوابة علم الحاسوب (ar)
- Tokenisierung bezeichnet in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene (manchmal auch Sätze, Absätze o. Ä.). Die Tokenisierung des Textes ist Voraussetzung für dessen Weiterverarbeitung, beispielsweise zur syntaktischen Analyse durch Parser, im Textmining oder Information Retrieval. In der Informatik bezeichnet der Begriff analog die Zerlegung eines in einer Programmiersprache verfassten Computerprogrammes in kleinste Einheiten, siehe Token (Übersetzerbau) und Tokenbasierte Kompression. Außerdem wird mit Tokenisierung im Finanzwesen auch der Trend zur Abschaffung des Trägermediums Papier-Urkunde durch digitale Daten bezeichnet. (de)
- Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca. Tokenisasi sering kali dipakai dalam linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses dan digunakan secara daring adalah MorphAdorner dan NLTK Tokenizer. (in)
- 字句(じく)とは、プログラミング言語などにおいてソースコードに出現する文字列の中で意味を持つ最小単位で、トークンとも言う。 言語によって違うが、一般的な所としては、if などのキーワード、main や argc などといった関数名や変数名などの識別子、{ } [ ] などの括弧(の片方ずつ)、+ - = * などの演算子(++ や -- や ** や && や || のようなものは2文字でひとつの字句)、; , : などといった区切り文字、3.14159 のようなリテラル、といったようなトークンがある。 多くの場合、プログラミング言語の構文規則はトークン列を定義しており、構文解析の前に、まずトークンを切り出し、必要であれば種類別に分類したりもする。この処理を字句解析と呼ぶ。この処理のため、プログラミング言語の言語仕様では、それぞれの種類のトークンはどのような文字から構成されるかが規定されている。
* (例)識別子は、英字で始まり、その後に0個以上の英字、数字または下線 (_) が続く。ただしキーワードと同じ綴りでないこと。 (一般に構文規則はその文脈自由文法が(バッカス・ナウア記法で)示されることが多いのに対し)字句規則は正規表現で示されることが多い。上の例を正規表現で表すと [A-Za-z][0-9A-Z_a-z]* となる(「キーワードと同じ綴りでないこと」という制限はこの表現には含まれない(プログラミング言語における規則には、一般にそういった制限が多いが、それを正規表現で表現するのは難しいことも多い))。 (ja)
- То́кен (англ. token) — объект, создающийся из лексемы в процессе лексического анализа («токенизации», от англ. tokenizing). В прикладном программировании понятие токена и его лексема могут не различаться. Шаблон токена — формальное описание класса лексем, которые могут создать данный тип токена. (ru)
- Токен — об'єкт, що утворюється із лексеми в процесі лексичного аналізу. У прикладному програмуванні поняття токену та його лексема можуть не розрізнятися. Шаблон токена — формальний опис класу лексем, які можуть утворити даний тип токена. (uk)
|
gold:hypernym
| |
prov:wasDerivedFrom
| |
page length (characters) of wiki page
| |
foaf:isPrimaryTopicOf
| |
is differentFrom
of | |
is Link from a Wikipage to another Wikipage
of | |
is Wikipage disambiguates
of | |
is foaf:primaryTopic
of | |