About: Tokenization (lexical analysis)     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : dbo:Election, within Data Space : dbpedia.demo.openlinksw.com associated with source document(s)
QRcode icon
http://dbpedia.demo.openlinksw.com/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FTokenization_%28lexical_analysis%29

AttributesValues
rdf:type
rdfs:label
  • توكن (ar)
  • Tokenisierung (de)
  • Token (Übersetzerbau) (de)
  • Tokenisasi (in)
  • 字句 (ja)
  • Tokenization (lexical analysis) (en)
  • Токен (лексический анализ) (ru)
  • Токен (uk)
rdfs:comment
  • Ein Token (Art.: „das“; Pl.: ‚Tokens‘) ist eine Zeichenkette, der von einer formalen Grammatik ein Typ zugewiesen wird. Das Token bildet die lexikalische Grundeinheit für den Parser. Ein Token entspricht in der Grammatik des Parsers einem Terminalsymbol. Im trivialen Fall sind Tokens die Zeichen der ursprünglichen Eingabe: Zum Beispiel der Buchstabe A wird als Token vom Typ A erkannt. Mehrere Zeichen können im Zuge einer lexikalischen Analyse zu Tokens zusammengefasst werden. Die einem Token zu Grunde liegende Zeichenkette heißt Lexem. Beispiele:(Siehe auch: Compiler) (de)
  • لفظ توكن Token يصف سلسلة من الرموز لها معنى (نوع) محدد في نحو شكلي. تشكل التوكن حجر البناء في الثروة اللغوية التي يعتد عليها الـ تجزئة. في أبسط الأحوال يمكن اعتبار كل حرف منفصل توكن: فمثلا الحرف أ يكون من النوع أ. ولكن لكي يكتمل المنفعة من وراء النحو يتم تعريف أنواع رئيسية ويتم تقسيم الكلمات إليها. فمثلا في اللغة العربية يمكن اعتبار عملية تقسيم الجملة الفعلية إلى فعل وفاعل ومفعول به كـ tokenization. * بوابة علم الحاسوب (ar)
  • Tokenisierung bezeichnet in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene (manchmal auch Sätze, Absätze o. Ä.). Die Tokenisierung des Textes ist Voraussetzung für dessen Weiterverarbeitung, beispielsweise zur syntaktischen Analyse durch Parser, im Textmining oder Information Retrieval. In der Informatik bezeichnet der Begriff analog die Zerlegung eines in einer Programmiersprache verfassten Computerprogrammes in kleinste Einheiten, siehe Token (Übersetzerbau) und Tokenbasierte Kompression. Außerdem wird mit Tokenisierung im Finanzwesen auch der Trend zur Abschaffung des Trägermediums Papier-Urkunde durch digitale Daten bezeichnet. (de)
  • Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca. Tokenisasi sering kali dipakai dalam linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses dan digunakan secara daring adalah MorphAdorner dan NLTK Tokenizer. (in)
  • То́кен (англ. token) — объект, создающийся из лексемы в процессе лексического анализа («токенизации», от англ. tokenizing). В прикладном программировании понятие токена и его лексема могут не различаться. Шаблон токена — формальное описание класса лексем, которые могут создать данный тип токена. (ru)
  • Токен — об'єкт, що утворюється із лексеми в процесі лексичного аналізу. У прикладному програмуванні поняття токену та його лексема можуть не розрізнятися. Шаблон токена — формальний опис класу лексем, які можуть утворити даний тип токена. (uk)
  • 字句(じく)とは、プログラミング言語などにおいてソースコードに出現する文字列の中で意味を持つ最小単位で、トークンとも言う。 言語によって違うが、一般的な所としては、if などのキーワード、main や argc などといった関数名や変数名などの識別子、{ } [ ] などの括弧(の片方ずつ)、+ - = * などの演算子(++ や -- や ** や && や || のようなものは2文字でひとつの字句)、; , : などといった区切り文字、3.14159 のようなリテラル、といったようなトークンがある。 多くの場合、プログラミング言語の構文規則はトークン列を定義しており、構文解析の前に、まずトークンを切り出し、必要であれば種類別に分類したりもする。この処理を字句解析と呼ぶ。この処理のため、プログラミング言語の言語仕様では、それぞれの種類のトークンはどのような文字から構成されるかが規定されている。 * (例)識別子は、英字で始まり、その後に0個以上の英字、数字または下線 (_) が続く。ただしキーワードと同じ綴りでないこと。 (ja)
Wikipage page ID
Wikipage revision ID
Link from a Wikipage to another Wikipage
Wikipage redirect
sameAs
dbp:wikiPageUsesTemplate
has abstract
  • Ein Token (Art.: „das“; Pl.: ‚Tokens‘) ist eine Zeichenkette, der von einer formalen Grammatik ein Typ zugewiesen wird. Das Token bildet die lexikalische Grundeinheit für den Parser. Ein Token entspricht in der Grammatik des Parsers einem Terminalsymbol. Im trivialen Fall sind Tokens die Zeichen der ursprünglichen Eingabe: Zum Beispiel der Buchstabe A wird als Token vom Typ A erkannt. Mehrere Zeichen können im Zuge einer lexikalischen Analyse zu Tokens zusammengefasst werden. Die einem Token zu Grunde liegende Zeichenkette heißt Lexem. Beispiele:(Siehe auch: Compiler) (de)
  • لفظ توكن Token يصف سلسلة من الرموز لها معنى (نوع) محدد في نحو شكلي. تشكل التوكن حجر البناء في الثروة اللغوية التي يعتد عليها الـ تجزئة. في أبسط الأحوال يمكن اعتبار كل حرف منفصل توكن: فمثلا الحرف أ يكون من النوع أ. ولكن لكي يكتمل المنفعة من وراء النحو يتم تعريف أنواع رئيسية ويتم تقسيم الكلمات إليها. فمثلا في اللغة العربية يمكن اعتبار عملية تقسيم الجملة الفعلية إلى فعل وفاعل ومفعول به كـ tokenization. * بوابة علم الحاسوب (ar)
  • Tokenisierung bezeichnet in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene (manchmal auch Sätze, Absätze o. Ä.). Die Tokenisierung des Textes ist Voraussetzung für dessen Weiterverarbeitung, beispielsweise zur syntaktischen Analyse durch Parser, im Textmining oder Information Retrieval. In der Informatik bezeichnet der Begriff analog die Zerlegung eines in einer Programmiersprache verfassten Computerprogrammes in kleinste Einheiten, siehe Token (Übersetzerbau) und Tokenbasierte Kompression. Außerdem wird mit Tokenisierung im Finanzwesen auch der Trend zur Abschaffung des Trägermediums Papier-Urkunde durch digitale Daten bezeichnet. (de)
  • Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca. Tokenisasi sering kali dipakai dalam linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses dan digunakan secara daring adalah MorphAdorner dan NLTK Tokenizer. (in)
  • 字句(じく)とは、プログラミング言語などにおいてソースコードに出現する文字列の中で意味を持つ最小単位で、トークンとも言う。 言語によって違うが、一般的な所としては、if などのキーワード、main や argc などといった関数名や変数名などの識別子、{ } [ ] などの括弧(の片方ずつ)、+ - = * などの演算子(++ や -- や ** や && や || のようなものは2文字でひとつの字句)、; , : などといった区切り文字、3.14159 のようなリテラル、といったようなトークンがある。 多くの場合、プログラミング言語の構文規則はトークン列を定義しており、構文解析の前に、まずトークンを切り出し、必要であれば種類別に分類したりもする。この処理を字句解析と呼ぶ。この処理のため、プログラミング言語の言語仕様では、それぞれの種類のトークンはどのような文字から構成されるかが規定されている。 * (例)識別子は、英字で始まり、その後に0個以上の英字、数字または下線 (_) が続く。ただしキーワードと同じ綴りでないこと。 (一般に構文規則はその文脈自由文法が(バッカス・ナウア記法で)示されることが多いのに対し)字句規則は正規表現で示されることが多い。上の例を正規表現で表すと [A-Za-z][0-9A-Z_a-z]* となる(「キーワードと同じ綴りでないこと」という制限はこの表現には含まれない(プログラミング言語における規則には、一般にそういった制限が多いが、それを正規表現で表現するのは難しいことも多い))。 (ja)
  • То́кен (англ. token) — объект, создающийся из лексемы в процессе лексического анализа («токенизации», от англ. tokenizing). В прикладном программировании понятие токена и его лексема могут не различаться. Шаблон токена — формальное описание класса лексем, которые могут создать данный тип токена. (ru)
  • Токен — об'єкт, що утворюється із лексеми в процесі лексичного аналізу. У прикладному програмуванні поняття токену та його лексема можуть не розрізнятися. Шаблон токена — формальний опис класу лексем, які можуть утворити даний тип токена. (uk)
gold:hypernym
prov:wasDerivedFrom
page length (characters) of wiki page
foaf:isPrimaryTopicOf
is differentFrom of
is Link from a Wikipage to another Wikipage of
is Wikipage disambiguates of
is foaf:primaryTopic of
Faceted Search & Find service v1.17_git145 as of Aug 30 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 08.03.3331 as of Sep 2 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (378 GB total memory, 64 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software