About: Tokenization (lexical analysis)

Facets (new session)
Description
Metadata
Settings
- Rule:
- Inverse Functional Properties:
- "Same As":

About: Tokenization (lexical analysis) Goto Sponge NotDistinct Permalink

An Entity of Type : dbo:Election, within Data Space : dbpedia.demo.openlinksw.com associated with source document(s)
QRcode icon

http://dbpedia.demo.openlinksw.com/c/4K568R4eVY

Attributes	Values
rdf:type	Election
rdfs:label	توكن (ar) Tokenisierung (de) Token (Übersetzerbau) (de) Tokenisasi (in) 字句 (ja) Tokenization (lexical analysis) (en) Токен (лексический анализ) (ru) Токен (uk)
rdfs:comment	Ein Token (Art.: „das“; Pl.: ‚Tokens‘) ist eine Zeichenkette, der von einer formalen Grammatik ein Typ zugewiesen wird. Das Token bildet die lexikalische Grundeinheit für den Parser. Ein Token entspricht in der Grammatik des Parsers einem Terminalsymbol. Im trivialen Fall sind Tokens die Zeichen der ursprünglichen Eingabe: Zum Beispiel der Buchstabe A wird als Token vom Typ A erkannt. Mehrere Zeichen können im Zuge einer lexikalischen Analyse zu Tokens zusammengefasst werden. Die einem Token zu Grunde liegende Zeichenkette heißt Lexem. Beispiele:(Siehe auch: Compiler) (de) لفظ توكن Token يصف سلسلة من الرموز لها معنى (نوع) محدد في نحو شكلي. تشكل التوكن حجر البناء في الثروة اللغوية التي يعتد عليها الـ تجزئة. في أبسط الأحوال يمكن اعتبار كل حرف منفصل توكن: فمثلا الحرف أ يكون من النوع أ. ولكن لكي يكتمل المنفعة من وراء النحو يتم تعريف أنواع رئيسية ويتم تقسيم الكلمات إليها. فمثلا في اللغة العربية يمكن اعتبار عملية تقسيم الجملة الفعلية إلى فعل وفاعل ومفعول به كـ tokenization. * بوابة علم الحاسوب (ar) Tokenisierung bezeichnet in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene (manchmal auch Sätze, Absätze o. Ä.). Die Tokenisierung des Textes ist Voraussetzung für dessen Weiterverarbeitung, beispielsweise zur syntaktischen Analyse durch Parser, im Textmining oder Information Retrieval. In der Informatik bezeichnet der Begriff analog die Zerlegung eines in einer Programmiersprache verfassten Computerprogrammes in kleinste Einheiten, siehe Token (Übersetzerbau) und Tokenbasierte Kompression. Außerdem wird mit Tokenisierung im Finanzwesen auch der Trend zur Abschaffung des Trägermediums Papier-Urkunde durch digitale Daten bezeichnet. (de) Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca. Tokenisasi sering kali dipakai dalam linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses dan digunakan secara daring adalah MorphAdorner dan NLTK Tokenizer. (in) То́кен (англ. token) — объект, создающийся из лексемы в процессе лексического анализа («токенизации», от англ. tokenizing). В прикладном программировании понятие токена и его лексема могут не различаться. Шаблон токена — формальное описание класса лексем, которые могут создать данный тип токена. (ru) Токен — об'єкт, що утворюється із лексеми в процесі лексичного аналізу. У прикладному програмуванні поняття токену та його лексема можуть не розрізнятися. Шаблон токена — формальний опис класу лексем, які можуть утворити даний тип токена. (uk) 字句（じく）とは、プログラミング言語などにおいてソースコードに出現する文字列の中で意味を持つ最小単位で、トークンとも言う。言語によって違うが、一般的な所としては、if などのキーワード、main や argc などといった関数名や変数名などの識別子、{ } [ ] などの括弧（の片方ずつ）、+ - = * などの演算子（++ や -- や ** や && や \|\| のようなものは2文字でひとつの字句）、; , : などといった区切り文字、3.14159 のようなリテラル、といったようなトークンがある。多くの場合、プログラミング言語の構文規則はトークン列を定義しており、構文解析の前に、まずトークンを切り出し、必要であれば種類別に分類したりもする。この処理を字句解析と呼ぶ。この処理のため、プログラミング言語の言語仕様では、それぞれの種類のトークンはどのような文字から構成されるかが規定されている。 * （例）識別子は、英字で始まり、その後に0個以上の英字、数字または下線 (_) が続く。ただしキーワードと同じ綴りでないこと。 (ja)
Wikipage page ID	24517557 (xsd:integer)
Wikipage revision ID	942083152 (xsd:integer)
Link from a Wikipage to another Wikipage	Lexical analysis
Wikipage redirect	Lexical analysis
sameAs	Tokenization (lexical analysis) Tokenization (lexical analysis) Tokenization (lexical analysis) Tokenization (lexical analysis) Tokenization (lexical analysis) Tokenization (lexical analysis) Tokenization (lexical analysis) Tokenization (lexical analysis) Tokenization (lexical analysis) Tokenization (lexical analysis) Tokenization (lexical analysis) Tokenization (lexical analysis) Tokenization (lexical analysis)
dbp:wikiPageUsesTemplate	dbt:R_from_merge dbt:R_to_section dbt:Redirect_category_shell dbt:Wikidata_redirect
has abstract	Ein Token (Art.: „das“; Pl.: ‚Tokens‘) ist eine Zeichenkette, der von einer formalen Grammatik ein Typ zugewiesen wird. Das Token bildet die lexikalische Grundeinheit für den Parser. Ein Token entspricht in der Grammatik des Parsers einem Terminalsymbol. Im trivialen Fall sind Tokens die Zeichen der ursprünglichen Eingabe: Zum Beispiel der Buchstabe A wird als Token vom Typ A erkannt. Mehrere Zeichen können im Zuge einer lexikalischen Analyse zu Tokens zusammengefasst werden. Die einem Token zu Grunde liegende Zeichenkette heißt Lexem. Beispiele:(Siehe auch: Compiler) (de) لفظ توكن Token يصف سلسلة من الرموز لها معنى (نوع) محدد في نحو شكلي. تشكل التوكن حجر البناء في الثروة اللغوية التي يعتد عليها الـ تجزئة. في أبسط الأحوال يمكن اعتبار كل حرف منفصل توكن: فمثلا الحرف أ يكون من النوع أ. ولكن لكي يكتمل المنفعة من وراء النحو يتم تعريف أنواع رئيسية ويتم تقسيم الكلمات إليها. فمثلا في اللغة العربية يمكن اعتبار عملية تقسيم الجملة الفعلية إلى فعل وفاعل ومفعول به كـ tokenization. * بوابة علم الحاسوب (ar) Tokenisierung bezeichnet in der Computerlinguistik die Segmentierung eines Textes in Einheiten der Wortebene (manchmal auch Sätze, Absätze o. Ä.). Die Tokenisierung des Textes ist Voraussetzung für dessen Weiterverarbeitung, beispielsweise zur syntaktischen Analyse durch Parser, im Textmining oder Information Retrieval. In der Informatik bezeichnet der Begriff analog die Zerlegung eines in einer Programmiersprache verfassten Computerprogrammes in kleinste Einheiten, siehe Token (Übersetzerbau) und Tokenbasierte Kompression. Außerdem wird mit Tokenisierung im Finanzwesen auch der Trend zur Abschaffung des Trägermediums Papier-Urkunde durch digitale Daten bezeichnet. (de) Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu. Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca. Tokenisasi sering kali dipakai dalam linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses dan digunakan secara daring adalah MorphAdorner dan NLTK Tokenizer. (in) 字句（じく）とは、プログラミング言語などにおいてソースコードに出現する文字列の中で意味を持つ最小単位で、トークンとも言う。言語によって違うが、一般的な所としては、if などのキーワード、main や argc などといった関数名や変数名などの識別子、{ } [ ] などの括弧（の片方ずつ）、+ - = * などの演算子（++ や -- や ** や && や \|\| のようなものは2文字でひとつの字句）、; , : などといった区切り文字、3.14159 のようなリテラル、といったようなトークンがある。多くの場合、プログラミング言語の構文規則はトークン列を定義しており、構文解析の前に、まずトークンを切り出し、必要であれば種類別に分類したりもする。この処理を字句解析と呼ぶ。この処理のため、プログラミング言語の言語仕様では、それぞれの種類のトークンはどのような文字から構成されるかが規定されている。 * （例）識別子は、英字で始まり、その後に0個以上の英字、数字または下線 (_) が続く。ただしキーワードと同じ綴りでないこと。（一般に構文規則はその文脈自由文法が（バッカス・ナウア記法で）示されることが多いのに対し）字句規則は正規表現で示されることが多い。上の例を正規表現で表すと [A-Za-z][0-9A-Z_a-z]* となる（「キーワードと同じ綴りでないこと」という制限はこの表現には含まれない（プログラミング言語における規則には、一般にそういった制限が多いが、それを正規表現で表現するのは難しいことも多い））。 (ja) То́кен (англ. token) — объект, создающийся из лексемы в процессе лексического анализа («токенизации», от англ. tokenizing). В прикладном программировании понятие токена и его лексема могут не различаться. Шаблон токена — формальное описание класса лексем, которые могут создать данный тип токена. (ru) Токен — об'єкт, що утворюється із лексеми в процесі лексичного аналізу. У прикладному програмуванні поняття токену та його лексема можуть не розрізнятися. Шаблон токена — формальний опис класу лексем, які можуть утворити даний тип токена. (uk)
gold:hypernym	Process
prov:wasDerivedFrom	wikipedia-en:Tokenization_(lexical_analysis)?oldid=942083152&ns=0
page length (characters) of wiki page	135 (xsd:nonNegativeInteger)
foaf:isPrimaryTopicOf	wikipedia-en:Tokenization_(lexical_analysis)
is differentFrom of	Tokenization (data security)
is Link from a Wikipage to another Wikipage of	C string handling Enterprise search Natural language processing Perceiver OMeta GPT-2 TI-BASIC Apache OpenNLP Speech synthesis Tehran Monolingual Corpus W-shingling DocBook Lemur Project Tokenization Record linkage Digraphs and trigraphs Document clustering SpaCy Search engine indexing Query understanding Europarl Corpus Naming convention (programming) Outline of natural language processing
is Wikipage disambiguates of	Tokenization
is foaf:primaryTopic of	wikipedia-en:Tokenization_(lexical_analysis)

Faceted Search & Find service v1.17_git147 as of Sep 06 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 08.03.3332 as of Dec 5 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (378 GB total memory, 76 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2025 OpenLink Software