About: Heritrix     Goto   Sponge   NotDistinct   Permalink

An Entity of Type : yago:Software106566077, within Data Space : dbpedia.demo.openlinksw.com associated with source document(s)
QRcode icon
http://dbpedia.demo.openlinksw.com/c/2pTdYLotht

Heritrix is a web crawler designed for web archiving. It was written by the Internet Archive. It is available under a free software license and written in Java. The main interface is accessible using a web browser, and there is a command-line tool that can optionally be used to initiate crawls. Heritrix was developed jointly by the Internet Archive and the Nordic national libraries on specifications written in early 2003. The first official release was in January 2004, and it has been continually improved by employees of the Internet Archive and other interested parties.

AttributesValues
rdf:type
rdfs:label
  • هريتركس (ar)
  • Heritrix (es)
  • Heritrix (en)
  • Heritrix (fr)
  • Heritrix (ja)
rdfs:comment
  • هيراتراكس (Heritrix) هو زاحف أرشيف أنترنت، والذي صمم خصيصا للأرشفة ويب. فهو مفتوح المصدر ومكتوب بلغة جافا. الواجهة الرئيسية للوصول باستخدام متصفح ويب، وهناك أداة سطر الأوامر التي يمكن اختياريا استخدامها لبدء بالزحف.طور هيراتراكس بالاشتراك مع أرشيف الإنترنت والمكتبات الوطنية في الشمال المواصفات المكتوبة في أوائل عام 2003. وكان إطلاقه الرسمي في أول يناير 2004، وتم تحسينها باستمرار من قبل العاملين في أرشيف الإنترنت وغيرها من الأطراف المهتمة. (ar)
  • Heritrix es un rastreador (o crawler) de ficheros web a través de internet. Su licencia es open-source y está escrito completamente en JAVA. Su interfaz de configuración es accesible usando un navegador web, haciéndolo muy versátil y cómodo de usar, aunque también puede ser lanzando desde línea de comandos. Heritrix fue desarrollado conjuntamente por Internet Archive y "Nordic National Libraries" a principios de 2003. La primera versión fue publicada en enero de 2004 y ha sido continuamente actualizado por los miembros de Internet Archive y terceras partes. (es)
  • Heritrix is a web crawler designed for web archiving. It was written by the Internet Archive. It is available under a free software license and written in Java. The main interface is accessible using a web browser, and there is a command-line tool that can optionally be used to initiate crawls. Heritrix was developed jointly by the Internet Archive and the Nordic national libraries on specifications written in early 2003. The first official release was in January 2004, and it has been continually improved by employees of the Internet Archive and other interested parties. (en)
  • Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du web. C'est un logiciel libre programmé en langage Java. Son interface principale est accessible depuis un navigateur web, mais un outil en interpréteur de commandes peut aussi être optionnellement utilisé pour lancer l'indexation. (fr)
  • Heritrix はインターネット・アーカイブが開発したウェブアーカイブのためのWebクローラーの一種。Java言語で実装され、フリーソフトウェアライセンスにより自由に利用できる。主にウェブブラウザを使って操作するが、コマンドラインツールを使ってクロールを開始するなどの操作も可能である。名前は「(女性の)相続人」を意味するheiressの古語に由来する。 Heritrixの開発は、2003年にまとめられた仕様に基づいて、インターネット・アーカイブとNordic National Librariesの共同で行われた。最初のリリースは2004年1月で、その後インターネット・アーカイブの従業員や外部のウェブアーカイブに関心を持つ人々によって継続的に改良が続けられている。 もっともHeritrixがインターネット・アーカイブ自身のウェブ収集に使われるようになったのはかなり後のことである。かつてはアーカイブの大半はアレクサ・インターネット社から提供されていた。アレクサ社は自身の業務に供するため独自のia_archiverと呼ばれるクローラーを使ってウェブ収集を行っており、収集したデータをインターネット・アーカイブに寄贈している。当初インターネット・アーカイブ自身もHeritrixを使って収集を行ってはいたが、小規模なものに留まっていた。 (ja)
foaf:name
  • Heritrix (en)
foaf:homepage
name
  • Heritrix (en)
foaf:depiction
  • http://commons.wikimedia.org/wiki/Special:FilePath/Heritrix_3.4.0_Web_UI.png
  • http://commons.wikimedia.org/wiki/Special:FilePath/Heritrix_logo.png
dcterms:subject
Wikipage page ID
Wikipage revision ID
Link from a Wikipage to another Wikipage
Link from a Wikipage to an external page
sameAs
sourcearticle
  • Re: Control over the Internet Archive besides just “Disallow /”? (en)
dbp:wikiPageUsesTemplate
Faceted Search & Find service v1.17_git147 as of Sep 06 2024


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 08.03.3332 as of Dec 5 2024, on Linux (x86_64-generic-linux-glibc212), Single-Server Edition (378 GB total memory, 52 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2025 OpenLink Software