This HTML5 document contains 121 embedded RDF statements represented using HTML+Microdata notation.

The embedded RDF content will be recognized by any processor of HTML5 Microdata.

Namespace Prefixes

PrefixIRI
dbthttp://dbpedia.org/resource/Template:
dbpedia-nohttp://no.dbpedia.org/resource/
wikipedia-enhttp://en.wikipedia.org/wiki/
dbrhttp://dbpedia.org/resource/
dbpedia-hrhttp://hr.dbpedia.org/resource/
dbpedia-arhttp://ar.dbpedia.org/resource/
n10https://web.archive.org/web/20100911194757/http:/www.itnext.in/content/
dbpedia-frhttp://fr.dbpedia.org/resource/
dctermshttp://purl.org/dc/terms/
rdfshttp://www.w3.org/2000/01/rdf-schema#
dbpedia-cshttp://cs.dbpedia.org/resource/
dbpedia-kkhttp://kk.dbpedia.org/resource/
rdfhttp://www.w3.org/1999/02/22-rdf-syntax-ns#
n30http://dbpedia.org/resource/Help:
dbphttp://dbpedia.org/property/
xsdhhttp://www.w3.org/2001/XMLSchema#
dbpedia-ukhttp://uk.dbpedia.org/resource/
n9http://www.eweek.com/c/a/Database/
dbohttp://dbpedia.org/ontology/
dbpedia-pthttp://pt.dbpedia.org/resource/
dbchttp://dbpedia.org/resource/Category:
dbpedia-dehttp://de.dbpedia.org/resource/
dbpedia-plhttp://pl.dbpedia.org/resource/
dbpedia-ruhttp://ru.dbpedia.org/resource/
n33http://www.text-filter.com/tools/remove-duplicate-lines/
wikidatahttp://www.wikidata.org/entity/
goldhttp://purl.org/linguistics/gold/
n22https://global.dbpedia.org/id/
n24https://web.archive.org/web/20080516150913/http:/www.infostor.com/webcast/
provhttp://www.w3.org/ns/prov#
foafhttp://xmlns.com/foaf/0.1/
n11http://www.snia.org/forums/dmf/programs/data_protect_init/ddsrsig/
dbpedia-zhhttp://zh.dbpedia.org/resource/
n20https://web.archive.org/web/20110409132151/http:/www.snia.org/forums/dmf/knowledge/white_papers_and_reports/
freebasehttp://rdf.freebase.com/ns/
dbpedia-eshttp://es.dbpedia.org/resource/
n19https://www.forbes.com/2009/08/08/
n23https://web.archive.org/web/20110928061457/http:/www.tacoma.washington.edu/tech/docs/research/gradresearch/
owlhttp://www.w3.org/2002/07/owl#

Statements

Subject Item
dbr:Data_deduplication
rdf:type
dbo:TopicalConcept
rdfs:label
Deduplicación de datos Deduplikacja Deduplikace Desduplicação de dados 重复数据删除 Дедублікація إزالة البيانات المكررة Déduplication Deduplikation Дедупликация Data deduplication
rdfs:comment
Дедупликация (также дедубликация; от лат. deduplicatio — устранение дубликатов) — специализированный метод сжатия массива данных, использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства систем хранения данных, однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации. Em computação, a deduplicação ou desduplicação de dados é uma técnica para eliminar cópias duplicadas de dados repetidos. Um termo relacionado e um tanto sinônimo é o . Essa técnica é usada para melhorar a utilização do armazenamento e também pode ser aplicada a transferências de dados de rede para reduzir o número de bytes que devem ser enviados. No processo de desduplicação, pedaços exclusivos de dados, ou padrões de bytes, são identificados e armazenados durante um processo de análise. Conforme a análise continua, outros pedaços são comparados à cópia armazenada e sempre que ocorre uma correspondência, o pedaço redundante é substituído por uma pequena referência que aponta para o pdeaço armazenado. Dado que o mesmo padrão de byte pode ocorrer dezenas, centenas ou mesmo milhares de vezes En informática, la deduplicación de datos es una técnica especializada de compresión de datos para eliminar copias duplicadas de datos repetidos. Un término relacionado con la deduplicación de datos es la compresión inteligente de datos. Esta técnica se usa para optimizar el almacenamiento de datos en disco y también para reducir la cantidad de información que debe enviarse de un dispositivo a otro a través de redes de comunicación. Una aplicación de deduplicación es reducir la cantidad de datos al crear copias de seguridad de sistemas grandes. En informatique, la déduplication (également appelée factorisation ou stockage d'instance unique) est une technique de stockage de données, consistant à factoriser des séquences de données identiques afin d'économiser l'espace utilisé. La déduplication est utilisée en particulier sur des solutions du type VTL (Virtual Tape Library) ou tout autre type de système de sauvegarde. في الحوسبة، إزالة البيانات المكررة هي تقنية للتخلص من النسخ المكررة من البيانات. تُستخدم هذه التقنية لتحسين استخدام التخزين ويمكن أيضًا تطبيقها على عمليات نقل بيانات الشبكة لتقليل عدد البايتات التي يجب إرسالها. في عملية إلغاء البيانات المكررة ، يتم تحديد أجزاء فريدة من البيانات أو أنماط البايت وتخزينها أثناء عملية التحليل. مع استمرار التحليل ، تتم مقارنة الأجزاء الأخرى بالنسخة المخزنة ، وكلما حدث تطابق ، يتم استبدال الجزء الزائد بمرجع صغير يشير إلى القطعة المخزنة. بالنظر إلى أن نمط البايت نفسه قد يحدث عشرات أو مئات أو حتى آلاف المرات (يعتمد تردد المطابقة على حجم القطعة)، يمكن تقليل كمية البيانات التي يجب تخزينها أو نقلها بشكل كبير. Deduplikation (aus englisch deduplication), auch Datendeduplikation oder Deduplizierung, ist in der Informationstechnik ein Prozess, der redundante Daten identifiziert (Duplikaterkennung) und eliminiert, bevor diese auf einen nichtflüchtigen Datenträger geschrieben werden. Der Prozess komprimiert wie andere Verfahren auch die Datenmenge, die von einem Sender an einen Empfänger geschickt wird. Es ist nahezu unmöglich, die Effizienz bei der Verwendung von Deduplikationsalgorithmen vorherzusagen, da sie immer von der Datenstruktur und der Änderungsrate abhängig ist.Deduplikation kann eine sehr effiziente Methode sein, Datenmengen zu reduzieren, bei denen eine Mustererkennung möglich ist (unverschlüsselte Daten). Deduplikace je speciální technika komprese dat, která zabraňuje ukládání stejných datových bloků na jednom úložišti. Deduplikační jednotka ukládá informace (referenční informace) o datové struktuře a díky tomu je schopná při zpětném čtení deduplikovaných dat zpět obnovit původní, komplexní informaci. Účelem deduplikace je úspora místa na datovém úložišti. Kromě této varianty, tzv. blokové deduplikace, existuje ještě deduplikace na úrovni souborů, kdy je ukládána pouze jedna kopie (instance) souboru/přílohy e-mailu. Příkladem budiž ukládání e-mailových zpráv v systému Microsoft , nebo Windows . Deduplikacja – eliminowanie powtarzających się części w zbiorze danych. Jest to proces stosowany przy okazji tworzenia kopii zapasowych danych (tzw. backup). Celem procesu deduplikacji jest ograniczanie ilości miejsca potrzebnego do przechowywania kopii zapasowych. Obecnie wyróżnia się 4 podstawowe metody przeprowadzania procesu deduplikacji: Дедублікація (лат. deduplicatio — усунення дублів) — це процес, який направлений на виявлення та заміну цілком однакових за змістом блоків інформації одним їхнім примірником. Набув розповсюдження насамперед у зв'язку із розвитком резервного копіювання. В дослідах виявилось, що резервні копії мають багато однакових областей даних. Обумовлено тим, що дані змінюються не по всьому масиву даних, які підлягають резервному копіюванні. Звідси, стає зрозумілим, що резервні копії мають однакові блоки даних, які можна замінити посиланням на раніше записані блоки даних. Дедублікація використовується в: In computing, data deduplication is a technique for eliminating duplicate copies of repeating data. Successful implementation of the technique can improve storage utilization, which may in turn lower capital expenditure by reducing the overall amount of storage media required to meet storage capacity needs. It can also be applied to network data transfers to reduce the number of bytes that must be sent. 重复数据删除(英語:data deduplication)是一种节约数据存储空间的技术。在计算机中存储了很多重复数据,这些数据占用了大量硬盘空间,利用重复数据删除技术,可以只存储一份数据。另外一项节约存储空间的技术是数据压缩,数据压缩技术在比较小的范围内以比较小的粒度查找重复数据,粒度一般为几个比特到几个字节。而重复数据删除是在比较大的范围内查找大块的重复数据,一般重复数据块尺寸在1KB以上。重复数据删除技术被广泛应用于网络硬盘、电子邮件、等。
dcterms:subject
dbc:Data_compression dbc:Data_management
dbo:wikiPageID
17174890
dbo:wikiPageRevisionID
1063566238
dbo:wikiPageWikiLink
dbr:Variable_(computer_science) dbr:Email dbr:ReFS dbr:Backup dbr:Data_corruption dbr:Hard_links dbr:Delta_encoding dbr:WAN_optimization dbr:Reference_(computer_science) dbr:Computer_code dbr:Data_differencing dbr:Content-addressable_storage dbr:MediaWiki dbr:Linked_data dbr:Write_Anywhere_File_Layout dbr:File_system dbr:Computing dbr:Cloud_storage dbc:Data_compression dbr:Capacity_optimization dbr:Data dbr:Hard_link dbr:Capital_expenditure dbr:Disk_arrays dbr:Convergent_encryption dbr:LZ77_and_LZ78 dbr:E-mail_server dbr:Birthday_attack dbr:Inode dbr:Virtual_tape_library dbr:Symbolic_link dbr:ZFS n30:Footnotes dbr:Copy-on-write dbr:CSS_class dbr:Single-instance_storage dbr:Cryptographic_hash_function dbc:Data_management dbr:Identity_resolution dbr:SHA-1 dbr:SHA-256 dbr:Megabyte dbr:Pigeonhole_principle dbr:Pointer_(computer_programming) dbr:Record_linkage dbr:SNIA_Dictionary dbr:Hash_collision dbr:Hash_function
dbo:wikiPageExternalLink
n9:What-Is-the-Difference-Between-Data-Deduplication-File-Deduplication-and-Data-Compression n10:doing-more-less.html n11: n19:exagrid-storage-data-technology-cio-network-tape.html n20:Understanding_Data_Deduplication_Ratios-20080718.pdf n23:MSpiz.pdf n24:display_webcast.cfm%3Fid=540 n33:
owl:sameAs
dbpedia-uk:Дедублікація dbpedia-ru:Дедупликация dbpedia-no:Datadeduplisering dbpedia-kk:Мәліметтерді_қайталау dbpedia-pl:Deduplikacja freebase:m.043n6w3 n22:Dor4 dbpedia-cs:Deduplikace dbpedia-pt:Desduplicação_de_dados dbpedia-hr:Deduplikacija dbpedia-de:Deduplikation dbpedia-es:Deduplicación_de_datos dbpedia-zh:重复数据删除 dbpedia-fr:Déduplication dbpedia-ar:إزالة_البيانات_المكررة wikidata:Q1182260
dbp:wikiPageUsesTemplate
dbt:Div_col dbt:Div_col_end dbt:Reflist dbt:File_systems dbt:Citation_needed dbt:Short_description dbt:Anchor
dbo:abstract
Em computação, a deduplicação ou desduplicação de dados é uma técnica para eliminar cópias duplicadas de dados repetidos. Um termo relacionado e um tanto sinônimo é o . Essa técnica é usada para melhorar a utilização do armazenamento e também pode ser aplicada a transferências de dados de rede para reduzir o número de bytes que devem ser enviados. No processo de desduplicação, pedaços exclusivos de dados, ou padrões de bytes, são identificados e armazenados durante um processo de análise. Conforme a análise continua, outros pedaços são comparados à cópia armazenada e sempre que ocorre uma correspondência, o pedaço redundante é substituído por uma pequena referência que aponta para o pdeaço armazenado. Dado que o mesmo padrão de byte pode ocorrer dezenas, centenas ou mesmo milhares de vezes (a frequência de correspondência depende do tamanho do pedaço), a quantidade de dados que deve ser armazenada ou transferida pode ser bastante reduzida. A desduplicação é diferente dos algoritmos de compactação de dados, como . Enquanto os algoritmos de compactação identificam dados redundantes dentro de arquivos individuais e codificam esses dados redundantes com mais eficiência, a intenção da desduplicação é inspecionar grandes volumes de dados e identificar grandes seções - como arquivos inteiros ou grandes seções de arquivos - que são idênticas e substituí-las com uma cópia compartilhada. Por exemplo, um sistema de e-mail típico pode conter 100 instâncias do mesmo anexo de arquivo de 1 MB (megabyte). Cada vez que é feito backup da plataforma de e-mail, todas as 100 instâncias do anexo são salvas, exigindo 100 MB de espaço de armazenamento. Com a desduplicação de dados, apenas uma instância do anexo é realmente armazenada; as instâncias subsequentes são referenciadas de volta à cópia salva para taxa de desduplicação de cerca de 100 para 1. A desduplicação costuma ser combinada com a compactação de dados para economia de armazenamento adicional: a desduplicação é usada primeiro para eliminar grandes blocos de dados repetitivos e a compactação é então usada para eficientemente codificar cada um dos blocos armazenados. في الحوسبة، إزالة البيانات المكررة هي تقنية للتخلص من النسخ المكررة من البيانات. تُستخدم هذه التقنية لتحسين استخدام التخزين ويمكن أيضًا تطبيقها على عمليات نقل بيانات الشبكة لتقليل عدد البايتات التي يجب إرسالها. في عملية إلغاء البيانات المكررة ، يتم تحديد أجزاء فريدة من البيانات أو أنماط البايت وتخزينها أثناء عملية التحليل. مع استمرار التحليل ، تتم مقارنة الأجزاء الأخرى بالنسخة المخزنة ، وكلما حدث تطابق ، يتم استبدال الجزء الزائد بمرجع صغير يشير إلى القطعة المخزنة. بالنظر إلى أن نمط البايت نفسه قد يحدث عشرات أو مئات أو حتى آلاف المرات (يعتمد تردد المطابقة على حجم القطعة)، يمكن تقليل كمية البيانات التي يجب تخزينها أو نقلها بشكل كبير. يختلف إلغاء البيانات المكررة عن خوارزميات ضغط البيانات ، مثل LZ77 و LZ78 . في حين أن خوارزميات الضغط تحدد البيانات الزائدة داخل الملفات الفردية وترميز هذه البيانات المكررة بشكل أكثر كفاءة ، فإن الهدف من إلغاء البيانات المكررة هو فحص كميات كبيرة من البيانات وتحديد الأقسام الكبيرة - مثل الملفات الكاملة أو أقسام كبيرة من الملفات - المتطابقة ، واستبدالها بنسخة مشتركة. Deduplikation (aus englisch deduplication), auch Datendeduplikation oder Deduplizierung, ist in der Informationstechnik ein Prozess, der redundante Daten identifiziert (Duplikaterkennung) und eliminiert, bevor diese auf einen nichtflüchtigen Datenträger geschrieben werden. Der Prozess komprimiert wie andere Verfahren auch die Datenmenge, die von einem Sender an einen Empfänger geschickt wird. Es ist nahezu unmöglich, die Effizienz bei der Verwendung von Deduplikationsalgorithmen vorherzusagen, da sie immer von der Datenstruktur und der Änderungsrate abhängig ist.Deduplikation kann eine sehr effiziente Methode sein, Datenmengen zu reduzieren, bei denen eine Mustererkennung möglich ist (unverschlüsselte Daten). Vorrangiges Einsatzgebiet der Deduplikation ist vorerst die Datensicherung (Backup), bei der sich in der Praxis meistens eine stärkere Datenkomprimierung als mit anderen Methoden erzielen lässt. Das Verfahren eignet sich grundsätzlich für jeden Einsatzbereich, bei dem Daten wiederholt kopiert werden. Deduplikacja – eliminowanie powtarzających się części w zbiorze danych. Jest to proces stosowany przy okazji tworzenia kopii zapasowych danych (tzw. backup). Celem procesu deduplikacji jest ograniczanie ilości miejsca potrzebnego do przechowywania kopii zapasowych. Obecnie wyróżnia się 4 podstawowe metody przeprowadzania procesu deduplikacji: * Eliminacja identycznych duplikatów (Single-Instance Storage) * Deduplikacja blokiem o stałej wielkości (Fixed-block deduplication) * Deduplikacja blokiem o zmiennej wartości (Variable-block deduplication) * Deduplikacja progresywna (Progressive deduplication) In computing, data deduplication is a technique for eliminating duplicate copies of repeating data. Successful implementation of the technique can improve storage utilization, which may in turn lower capital expenditure by reducing the overall amount of storage media required to meet storage capacity needs. It can also be applied to network data transfers to reduce the number of bytes that must be sent. The deduplication process requires comparison of data 'chunks' (also known as 'byte patterns') which are unique, contiguous blocks of data. These chunks are identified and stored during a process of analysis, and compared to other chunks within existing data. Whenever a match occurs, the redundant chunk is replaced with a small reference that points to the stored chunk. Given that the same byte pattern may occur dozens, hundreds, or even thousands of times (the match frequency is dependent on the chunk size), the amount of data that must be stored or transferred can be greatly reduced. A related technique is single-instance (data) storage, which replaces multiple copies of content at the whole-file level with a single shared copy. While possible to combine this with other forms of data compression and deduplication, it is distinct from newer approaches to data deduplication (which can operate at the segment or sub-block level). Deduplication is different from data compression algorithms, such as LZ77 and LZ78. Whereas compression algorithms identify redundant data inside individual files and encodes this redundant data more efficiently, the intent of deduplication is to inspect large volumes of data and identify large sections – such as entire files or large sections of files – that are identical, and replace them with a shared copy. Дедупликация (также дедубликация; от лат. deduplicatio — устранение дубликатов) — специализированный метод сжатия массива данных, использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства систем хранения данных, однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации. В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные элементы информации фиксированного размера (англ. chunks). По мере выполнения анализа сравниваются все новые и старые элементы. При выявлении дублирующегося элемента, он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся элементов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён. Однако дедупликацию не стоит путать с более традиционными алгоритмами сжатия, например LZ77 или LZO. Эти алгоритмы производят поиск в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), тогда как алгоритм дедупликации производит поиск копий по огромному массиву данных. En informática, la deduplicación de datos es una técnica especializada de compresión de datos para eliminar copias duplicadas de datos repetidos. Un término relacionado con la deduplicación de datos es la compresión inteligente de datos. Esta técnica se usa para optimizar el almacenamiento de datos en disco y también para reducir la cantidad de información que debe enviarse de un dispositivo a otro a través de redes de comunicación. Una aplicación de deduplicación es reducir la cantidad de datos al crear copias de seguridad de sistemas grandes. Los procesos de deduplicación a nivel de archivo examinan los ficheros en su totalidad para determinar si están duplicados, lo que se conoce como almacenamiento de instancia única, que es idéntico a un backup incremental clásico. Sin embargo, otros procesos dividen los datos en bloques y tratan de encontrar duplicados en ellos (duplicación al nivel de los bloques). La deduplicación a nivel de bloques produce más granularidad y una reducción mayor del espacio de almacenamiento que la de nivel de archivo. Pero la verdadera potencia está en la deduplicación a nivel de bytes, al realizar un comparación byte a byte de las corrientes de datos se consigue una mayor nivel de precisión garantizando la eliminación de datos redundantes. Дедублікація (лат. deduplicatio — усунення дублів) — це процес, який направлений на виявлення та заміну цілком однакових за змістом блоків інформації одним їхнім примірником. Набув розповсюдження насамперед у зв'язку із розвитком резервного копіювання. В дослідах виявилось, що резервні копії мають багато однакових областей даних. Обумовлено тим, що дані змінюються не по всьому масиву даних, які підлягають резервному копіюванні. Звідси, стає зрозумілим, що резервні копії мають однакові блоки даних, які можна замінити посиланням на раніше записані блоки даних. В дедублікації весь масив даних поділяється на блоки фіксованого розміру. При збереженні наступного блоку процес перевіряє чи є вже в сховище такий самий: * якщо є, то зберігається посилання на раніше збережений блок, замість самого блоку. * якщо не має, то зберігається сам блок. Процес отримання даних із Сховища, яке організовано таким чином, зводиться до отримання відповідного блоку даних. Дедублікація відрізняється від процесу архівування тим, що дедублікація виконує пошук однакових фрагментів по всьому масиву даних, на відміну від алгоритмів стиснення, які обробляють дані в межах буферу окремого файлу. Недоліком цього способу збереження даних є його висока вразливість від пошкодження даних — пошкоджений блок даних призведе до пошкодження й неможливості відновлення всіх файлів де він є. Дедублікація використовується в: * файлових системах, наприклад, ZFS, IPFS; * системах збереження даних — дозволяє більш ефективно збергіати дані; * системах віртуалізації — дозволяє прискорити операції збереження та відновлення snapshot-ів, зменшити потрібний обсяг даних для збереження станів віртуальних машин; * системах передачі інформації — дозволяє за рахунок зменшення обсягу надсилаємих даних зменшити час на їх передачу. Розрізняють дедублікацію на рівні: * файлів; * блоків; * байтів. Практична недоцільність дедублікації на байтовому рівні була доведена в дослідах при проектуванні файлової системи ZFS. Дещо схожа ідея дедублікація на байтовому рівні втілена в алгоритмі стиснення RLE. Дедублікацію на файловому рівні виконують багато утиліт, відомим прикладом є GNU-утиліта . Вона замінює винайдені однакові файли посиланням на один примірник. На блочному рівні, для порівняння блоків між собою використовують наступні методи: * порівняння хеш сум (таких як, SHA-1, SHA-256, MD5) блоків між собою; * побайтове порівняння; * хешування алгоритмом Флетчера (fletcher4) з побайтовою верифікацією. Deduplikace je speciální technika komprese dat, která zabraňuje ukládání stejných datových bloků na jednom úložišti. Deduplikační jednotka ukládá informace (referenční informace) o datové struktuře a díky tomu je schopná při zpětném čtení deduplikovaných dat zpět obnovit původní, komplexní informaci. Účelem deduplikace je úspora místa na datovém úložišti. Kromě této varianty, tzv. blokové deduplikace, existuje ještě deduplikace na úrovni souborů, kdy je ukládána pouze jedna kopie (instance) souboru/přílohy e-mailu. Příkladem budiž ukládání e-mailových zpráv v systému Microsoft , nebo Windows . En informatique, la déduplication (également appelée factorisation ou stockage d'instance unique) est une technique de stockage de données, consistant à factoriser des séquences de données identiques afin d'économiser l'espace utilisé. Chaque fichier est découpé en une multitude de tronçons. À chacun de ces tronçons est associé un identifiant unique, ces identifiants étant stockés dans un index.L'objectif de la déduplication est de ne stocker qu'une seule fois un même tronçon. Aussi, une nouvelle occurrence d'un tronçon déjà présent n'est pas à nouveau sauvegardée, mais remplacée par un pointeur vers l'identifiant correspondant. La déduplication est utilisée en particulier sur des solutions du type VTL (Virtual Tape Library) ou tout autre type de système de sauvegarde. 重复数据删除(英語:data deduplication)是一种节约数据存储空间的技术。在计算机中存储了很多重复数据,这些数据占用了大量硬盘空间,利用重复数据删除技术,可以只存储一份数据。另外一项节约存储空间的技术是数据压缩,数据压缩技术在比较小的范围内以比较小的粒度查找重复数据,粒度一般为几个比特到几个字节。而重复数据删除是在比较大的范围内查找大块的重复数据,一般重复数据块尺寸在1KB以上。重复数据删除技术被广泛应用于网络硬盘、电子邮件、等。
gold:hypernym
dbr:Technique
prov:wasDerivedFrom
wikipedia-en:Data_deduplication?oldid=1063566238&ns=0
dbo:wikiPageLength
22557
foaf:isPrimaryTopicOf
wikipedia-en:Data_deduplication