De:Parsers

Aus YaCyWiki

Wechseln zu: Navigation, Suche

Per default indiziert YaCy nur Html bzw. Text-Dateien. Um auch andere Datei-Typen zu indexieren kann man sich die optionalen Erweiterungen zu YaCy ruterladen und installieren. Dieses Zusatzpackage enthält neben anderen nützlichen Features zusätzliche Content Parsers für weitere Formate.

Inhaltsverzeichnis

Unterstützte Formate

Zur Zeit sind zusätzlich zu den Standardparsern folgende Parser verfügbar:

Archive

  • bzip - Bzip 2 UNIX Compressed File: [application/bzip2]
  • gzip - GNU Zip Compressed Archive: [application/gzip]
  • zip - Compressed Archive File: [application/zip]
  • tar - Tape Archive File: [application/tar]
  • rpm - RedHat Package Manager File: [application/x-rpm]
  • 7z - 7zip Archive File: [application/x-7z-compressed]

Dokumenten

  • doc - Word Document: [application/msword]
  • pdf - Acrobat Portable Document Format: [application/pdf]
  • ppt - Microsoft Powerpoint: [application/mspowerpoint]
  • rtf - Rich Text Format File: [application/rtf]
  • odt - OASIS OpenDocument (Ver 2) Text Document: [application/vnd.oasis.opendocument.text]
  • xls - Microsoft Excel 97-2002: [application/msexcel]
  • ps - Postscript File: [application/postscript]

XML-Dateien

  • rss - Really Simple Syndication: [application/rdf+xml,application/rss+xml,application/atom+xml]

Sonstiges

  • swf - Flash File: [application/x-shockwave-flash]
  • vcf - vCard File: [text/x-vcard]

Programmierung

Eine Anleitung zur Programmierung zusätzlicher Content Parser gibt es hier.

Aktivierung

wenn eine libx installiert ist, sind die zusätzlichen parser verfügbar. Diese müssen allerdings noch einzeln aktiviert werden, was auf http://localhost:8080/Settings_p.html?page=parser gemacht werden kann

Content Parser Configuration
vergrößern
Content Parser Configuration
Persönliche Werkzeuge