About: Data pre-processing

Facets (new session)
Description
Metadata
Settings
- Rule:
- Inverse Functional Properties:
- "Same As":

About: Data pre-processing Goto Sponge NotDistinct Permalink

An Entity of Type : dbo:MilitaryConflict, within Data Space : dbpedia.demo.openlinksw.com associated with source document(s)
QRcode icon

http://dbpedia.demo.openlinksw.com/describe/?url=http%3A%2F%2Fdbpedia.org%2Fresource%2FData_pre-processing

Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data-gathering methods are often loosely controlled, resulting in values (e.g., Income: −100), impossible data combinations (e.g., Sex: Male, Pregnant: Yes), and missing values, etc.

Attributes	Values
rdf:type	military conflict
rdfs:label	معالجة مسبقة للبيانات (ar) Data pre-processing (en) データ前処理 (ja) Предварительная обработка данных (ru) Pré-processamento de dados (pt) Попередня обробка даних (uk)
rdfs:comment	機械学習・データマイニングにおけるデータ前処理（データまえしょり、英: data preprocessing）は学習の前段階で行われるデータ変換である。 (ja) Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные. (ru) Попередня обробка - розділ аналізу даних що займається отриманням характеристик для подальшого використання у наступних розділах аналізу даних. 1. * Обчислення базових характеристик (центральні моменти) 2. * Перевірка основних гіпотез (симетричності, однорідності) 3. * Перевірка стохастичності вибірки 4. * Видалення аномальних спостережень 5. * Розвідувальний аналіз (uk) تعتبر المعالجة المسبقة للبيانات خطوة مهمة في عملية التنقيب عن البيانات. غالبًا ما يتم التحكم في طرق جمع البيانات بطريقة غير محكمة، مما يؤدي إلى قيم خارج النطاق (على سبيل المثال، الدخل: − 100)، ومجموعات البيانات المستحيلة (مثل: الجنس: ذكر، حامل: نعم)، أو قيم مفقودة، إلخ. تحليل البيانات التي لم يتم فحصها بعناية لمواجهة هذه المشاكل يمكن أن يؤدي إلى نتائج مضللة وغير منطقية. وبالتالي، فإن تمثيل وجودة البيانات تسبقان كل شيء قبل إجراء التحليل. في كثير من الأحيان، تعد المعالجة المسبقة للبيانات المرحلة الأكثر أهمية في مشروع التعلم الآلي، خاصة في علم الأحياء الحسابي..في كثير من الأحيان، تجهيز البيانات يعتبر أهم مرحلة من مراحل التعلم الآلي، خاصة في الأحياء الحسابي. (ar) Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data-gathering methods are often loosely controlled, resulting in values (e.g., Income: −100), impossible data combinations (e.g., Sex: Male, Pregnant: Yes), and missing values, etc. (en) O pré-processamento é um passo importante no processo de mineração de texto. A frase "garbage in, garbage out" é particularmente aplicável a projetos de data mining e machine learning. Os métodos de coleta de dados geralmente são frouxamente controlados, resultando em valores de intervalo (por exemplo, renda: −100), combinações de dados impossíveis (por exemplo, sexo: masculino, grávidas: sim), , etc. A análise de dados que não foram cuidadosamente selecionados para tais problemas pode produzir resultados enganosos. Assim, a representação e a qualidade dos dados são antes de tudo uma análise. (pt)
foaf:depiction
dcterms:subject	Machine learning
Wikipage page ID	12386904 (xsd:integer)
Wikipage revision ID	1100537839 (xsd:integer)
Link from a Wikipage to another Wikipage	Protégé (software) Instance selection Comma-separated values Chemometrics GIGO Confusion matrix Machine learning Computational biology Feature extraction Feature selection Data normalization One-hot Machine learning Training set Data binning Data cleansing Data collection Data editing Data mining Data preparation Data quality Data reduction Data wrangling Data transformation Pandas (software) False positives and false negatives Data cleaning Ontology (information science) R (programming language) Natural language Knowledge discovery Fuzzy sets Missing values dbr:Range_error
Link from a Wikipage to an external page	http://dataprocessing.aixcape.org https://www.cambridge.org/core/journals/knowledge-engineering-review/article/data-preprocessing-in-predictive-data-mining/F7F2D7AC540D2815C613BA6575359AAA/share/92b3b50e7ed7363e5946baf406025281d2eb8c02
sameAs	Data pre-processing Data pre-processing Data pre-processing Data pre-processing Data pre-processing Data pre-processing Data pre-processing Data pre-processing Data pre-processing Data pre-processing
dbp:wikiPageUsesTemplate	dbt:Data dbt:Cn dbt:Reflist
thumbnail	wiki-commons:Special:FilePath/SimpleSemanticDataMiningDiagram.png?width=300
has abstract	تعتبر المعالجة المسبقة للبيانات خطوة مهمة في عملية التنقيب عن البيانات. غالبًا ما يتم التحكم في طرق جمع البيانات بطريقة غير محكمة، مما يؤدي إلى قيم خارج النطاق (على سبيل المثال، الدخل: − 100)، ومجموعات البيانات المستحيلة (مثل: الجنس: ذكر، حامل: نعم)، أو قيم مفقودة، إلخ. تحليل البيانات التي لم يتم فحصها بعناية لمواجهة هذه المشاكل يمكن أن يؤدي إلى نتائج مضللة وغير منطقية. وبالتالي، فإن تمثيل وجودة البيانات تسبقان كل شيء قبل إجراء التحليل. في كثير من الأحيان، تعد المعالجة المسبقة للبيانات المرحلة الأكثر أهمية في مشروع التعلم الآلي، خاصة في علم الأحياء الحسابي..في كثير من الأحيان، تجهيز البيانات يعتبر أهم مرحلة من مراحل التعلم الآلي، خاصة في الأحياء الحسابي. إذا كان هناك الكثير من المعلومات غير ذات الصلة أو الزائدة عن الحاجة أو البيانات المشوشة وغير الموثوق بها، فإن اكتشاف المعرفة خلال مرحلة التدريب يكون أكثر صعوبة. يمكن أن تستغرق خطوات إعداد البيانات،تصفيتها مقدارًا كبيرًا من وقت المعالجة. تتضمن معالجة البيانات الأولية التنظيف، واختيار الحالات، والتحسين، والتحويل، واستخلاص الخصائص واختيارها، وما إلى ذلك. النتيجة النهائية لمعالجة البيانات هو مجموعة التدريب النهائية. (ar) Data preprocessing can refer to manipulation or dropping of data before it is used in order to ensure or enhance performance, and is an important step in the data mining process. The phrase "garbage in, garbage out" is particularly applicable to data mining and machine learning projects. Data-gathering methods are often loosely controlled, resulting in values (e.g., Income: −100), impossible data combinations (e.g., Sex: Male, Pregnant: Yes), and missing values, etc. Analyzing data that has not been carefully screened for such problems can produce misleading results. Thus, the representation and quality of data is first and foremost before running any analysis. Often, data preprocessing is the most important phase of a machine learning project, especially in computational biology. If there is much irrelevant and redundant information present or noisy and unreliable data, then knowledge discovery during the training phase is more difficult. Data preparation and filtering steps can take considerable amount of processing time. Examples of data preprocessing include cleaning, instance selection, normalization, one hot encoding, transformation, feature extraction and selection, etc. The product of data preprocessing is the final training set. Data preprocessing may affect the way in which outcomes of the final data processing can be interpreted. This aspect should be carefully considered when interpretation of the results is a key point, such in the multivariate processing of chemical data (chemometrics). (en) 機械学習・データマイニングにおけるデータ前処理（データまえしょり、英: data preprocessing）は学習の前段階で行われるデータ変換である。 (ja) O pré-processamento é um passo importante no processo de mineração de texto. A frase "garbage in, garbage out" é particularmente aplicável a projetos de data mining e machine learning. Os métodos de coleta de dados geralmente são frouxamente controlados, resultando em valores de intervalo (por exemplo, renda: −100), combinações de dados impossíveis (por exemplo, sexo: masculino, grávidas: sim), , etc. A análise de dados que não foram cuidadosamente selecionados para tais problemas pode produzir resultados enganosos. Assim, a representação e a qualidade dos dados são antes de tudo uma análise. Muitas vezes, o pré-processamento de dados é a fase mais importante de um projeto de aprendizado de máquina, especialmente em biologia computacional. É nessa etapa que os documentos são transformados para a forma numérica. O conteúdo de cada documento é decomposto em termos e a frequência de cada um. Os termos menos significativos são descartados e os que estão presentes em um grande número de documentos da coleção são desvalorizados. O resultado do pré-processamento é a geração da Bag of Words, mas conhecida como BOW, que é uma representação numérica da coleção de documentos. A BOW é uma matriz esparsa, onde cada linha representa um documento (Di) e cada coluna representa um termo (Tj). E o valor do campo DiTj é o valor da frequência do termo Tj no documento Di. Para gerar uma BOW são necessárias quatro etapas: leitura e conversão, extração e limpeza dos termos, contagem de termos e cálculo de frequência. * Leitura: Nessa etapa é definida uma coleção de documentos e cada documento pertencente a essa coleção terá seu conteúdo carregado na memória e seguirá pelas etapas seguintes. * Extração e limpeza dos termos: Cada documento da coleção vai ter o seu conteúdo dividido em termos, ou seja, cada palavra significante presente no documento. É composto por 3 sub-etapas. * Tokenização: A tokenização é utilizada para decompor o documento em cada termo que o compõe. Os delimitadores utilizados para tokenização geralmente são: o espaço em branco entre os termos, quebras de linhas, tabulações, e alguns caracteres especiais. * Limpeza: Depois de fazer a tokenização cada termo obtido passa pela etapa de limpeza. Primeiro são removidos as stop words, depois é verificada a existência do sinônimo do mesmo no dicionário e por último é realizado o stemming do termo. Stop words é uma lista de termos não representativos para um documento, geralmente essa lista é composta por: preposições, artigos, advérbios, números, pronomes e pontuação. * Stemming: Stemming é o método para redução de um termo ao seu radical, removendo as desinências, afixos, e . Com sua utilização, os termos derivados de um mesmo radical serão contabilizados como um único termo. * Contagem dos termos: Depois de extrair os termos representativos de cada documento, será calculado o número de ocorrências de cada termo num documento. Depois de concluída a contagem é criada uma lista com duas colunas: termo e quantidade de ocorrência. * Cálculo da Frequência: Após concluída a etapa de contagem de termos para cada documento da coleção, será calculada a frequência dos termos. A medida escolhida para calcular a frequência dos termos é a tf-idf. O tf-idf define a importância do termo dentro da coleção de documentos. O tf-idf atribui um peso ao termo para cada documento da BOW. O peso é o número de ocorrências do termo no documento (Di), modificada por uma escala de importância do termo (Tj), chamada de frequência inversa do documento. (pt) Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные. (ru) Попередня обробка - розділ аналізу даних що займається отриманням характеристик для подальшого використання у наступних розділах аналізу даних. 1. * Обчислення базових характеристик (центральні моменти) 2. * Перевірка основних гіпотез (симетричності, однорідності) 3. * Перевірка стохастичності вибірки 4. * Видалення аномальних спостережень 5. * Розвідувальний аналіз (uk)
gold:hypernym	Step
prov:wasDerivedFrom	wikipedia-en:Data_pre-processing?oldid=1100537839&ns=0
page length (characters) of wiki page	17161 (xsd:nonNegativeInteger)
foaf:isPrimaryTopicOf	wikipedia-en:Data_pre-processing
is Link from a Wikipage to another Wikipage of	Ensemble learning Anomaly detection Instance selection CrysTBox Glossary of artificial intelligence Glossary of computer science MNIST database Computational geometry Fault detection and isolation Data Pre-processing Adaptive neuro fuzzy inference system Data augmentation Data binning Data blending Data editing Data mining Data preparation Data reduction Edgar Acuna Reachability Replication crisis Automated machine learning

Faceted Search & Find service v1.17_git139 as of Feb 29 2024

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 08.03.3330 as of Mar 19 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (378 GB total memory, 59 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software