De:Parsers
Aus YaCyWiki
Per default indiziert YaCy nur Html bzw. Text-Dateien. Um auch andere Datei-Typen zu indexieren kann man sich die optionalen Erweiterungen zu YaCy ruterladen und installieren. Dieses Zusatzpackage enthält neben anderen nützlichen Features zusätzliche Content Parsers für weitere Formate.
Inhaltsverzeichnis |
Unterstützte Formate
Zur Zeit sind zusätzlich zu den Standardparsern folgende Parser verfügbar:
Archive
- bzip - Bzip 2 UNIX Compressed File: [application/bzip2]
- gzip - GNU Zip Compressed Archive: [application/gzip]
- zip - Compressed Archive File: [application/zip]
- tar - Tape Archive File: [application/tar]
- rpm - RedHat Package Manager File: [application/x-rpm]
- 7z - 7zip Archive File: [application/x-7z-compressed]
Dokumenten
- doc - Word Document: [application/msword]
- pdf - Acrobat Portable Document Format: [application/pdf]
- ppt - Microsoft Powerpoint: [application/mspowerpoint]
- rtf - Rich Text Format File: [application/rtf]
- odt - OASIS OpenDocument (Ver 2) Text Document: [application/vnd.oasis.opendocument.text]
- xls - Microsoft Excel 97-2002: [application/msexcel]
- ps - Postscript File: [application/postscript]
XML-Dateien
- rss - Really Simple Syndication: [application/rdf+xml,application/rss+xml,application/atom+xml]
Sonstiges
- swf - Flash File: [application/x-shockwave-flash]
- vcf - vCard File: [text/x-vcard]
Programmierung
Eine Anleitung zur Programmierung zusätzlicher Content Parser gibt es hier.
Aktivierung
wenn eine libx installiert ist, sind die zusätzlichen parser verfügbar. Diese müssen allerdings noch einzeln aktiviert werden, was auf http://localhost:8080/Settings_p.html?page=parser gemacht werden kann
