De:Blacklists

Aus YaCyWiki

Wechseln zu: Navigation, Suche

In Blacklisten sind die Webseiten bzw. Webserver enthalten, bei denen man nicht möchte, dass YaCy diese crawlt (z.B. Werbe- bzw. Bot-Netze, Online-Shops oder Banner-Server). Die Blacklisten finden jedoch nicht nur beim Crawlen Anwendung. Nutzt man den YaCy-Proxy, so werden die eingetragenen URLs auch hier verweigert. Unter http://localhost:8080/Blacklist_p.html kann man in die Blackliste einsehen bzw. neue URLs der Webseite hinzufügen. Es ist jedoch zu beachten, dass man vor dem Eintragen in dem DropDown-Menü bei "Liste bearbeiten" die richtige Liste auswählt und danach mit "wähle" bestätigt. Der Schritt mit dem "wähle" ist bei jedem Aufruf dieser Seite zwingend erforderlich!



Blacklist
vergrößern
Blacklist

Inhaltsverzeichnis

Neue Liste anlegen

Unter dem Menü-Punkt "Neue Liste anlegen" lässt sich eine neue Blackliste anlegen. Hierzu tippt man den Namen, den die neue Liste erhalten soll ein und klickt danach auf "anlegen". Bevor man neue URLs hinzufügen kann muss man zuerst wieder den obigen Schritt mit dem Auswählen durchführen.



aktiv / freigegeben

Zuerst wählt man eine Blackliste. Danach kann man auswählen, ob YaCy diese beachten soll (aktiv) und ob sie auch im gesamten Netz zur Verfügung stehen soll (freigegeben) - sprich, dass sich ein anderer Peer die Liste über die Import-Funktion von einem anderen Peer Importieren kann. Der jeweilige Status wird auch im Auswahl-Feld angezeigt. Beispiel: default.black aktiv freigegeben. Hat man hier Änderungen durchgeführt, so muss man auf "Ändern" klicken um diese wirksam werden zu lassen.



Blacklisten-Import

Unter dem Punkt "Importiere Blackliste von anderem Peer" werden die anderen Peers aufgelistet, die der eigene Peer kennt. Klickt man nun auf "Lade" so gelangt man zu einer neuen Seite in der die evtl. vorhandenen URLs aufgelistet werden. Möchte man nur einzelne Importieren, so aktiviert man die Checkbox in der jeweiligen Reihe hinter der URL. Abschließend muss man unterhalb der Tabelle mit "add" bestätigen. Möchte man nun die gesamte Blackliste des anderen Peers importieren, so wählt man unten "select all" und anschließend "add". Das Import-Ergebnis wird angezeigt.

Ferner besteht auch die Möglichkeit, die Blackliste von einer URL bzw. einer Datei zu importieren. Das Verfahren ist analog zu dem oben beschriebenen.



Einzelne URLs zur Blackliste hinzufügen bzw. aus der Blackliste löschen

Nach dem Wählen der Blackliste erscheinen in dem Text-Feld unterhalb von "Aktivierte Liste" alle URLs, die bereits in der Blackliste vorhanden sind. Möchte man nun eine weitere Seite sperren, so kann man diese eingeben und mit "Füge URL hinzu" bestätigen.

Die Syntax für die URL ist <domain>/<path> wobei <domain> wildcards in Form von '*'-Zeichen enthalten können, und <path> wildcards in Form von standard Java-Patterns sein können; dies ist dann meistens der catch-all Austruck '.*'.

Beispiele:

Möchte man lediglich eine bestimmte Seite sperren (z.B. http://www.bsp.tld/seite.htm) so gibt man diese in das Text-Feld ein.
Möchte man einen ganzen Webserver sperren (z.B. http://www.bsp.tld/) so gibt man diesen hier ein.
Möchte man nun eine ganze URL bzw. einige Wörter sperren, die darin vorkommen (z.B. ads oder ads.server.tld) so trägt man ads.* (ads.server.tld) bzw. *.ads.* (www.ads.server.tld) ein.
Das Eintragen wird bestätigt!

Einzelne URLs lassen sich löschen, indem man die entsprechende URL in dem Textfeld markiert und auf "URL aus der Liste löschen" klickt.



Was (noch) nicht geht

Es gibt zurzeit noch einige Dinge die nicht funktionieren.

Mehrere Wildcards pro Domain

Es können keine zwei Wildcards * in der Domain benutzt werden:

*.domain.*/<path>

eigene Blacklistengine verwenden

Es ist auch möglich, eine eigene Blacklistengine zu verwenden. Dazu muss man zuerst die Library ins lib oder libx Verzeichnis von yacy kopieren. Danach muss man in der httpProxy.conf folgende Zeile editieren.

 BlackLists.class=de.anomic.plasma.urlPattern.defaultURLPattern

Dort muss nun der eigene Klassenname angegeben werden.

Es existiert bereits eine erweiterte Blacklistengine. Diese kann man unter http://yacystats.de/yacydownload/advancedBlacklist-0.3.jar (Ziel speichern unter) herunterladen.

Die Library beinhaltet 4 verschieden Engines.

  • advanced Blacklistengine
  • advanced Whitelistengine
  • regex Blacklistengine
  • regex Whitelistengine

Die erste stellt eine Erweiterung zur default Blacklistengine dar. Damit lassen sich auch 2 Wildcards in der Domain benutzen.

Um diese Engine zu aktivieren muss die Zeile in der httpProxy.conf wie folgt lauten.

 BlackLists.class=de.lulabad.blacklist.advancedURLPattern

Die regex Blacklistengine verarbeitet auch komplexe Reguläre Ausdrücke in der Domain. Dabei können alle regulären Ausdrücke verwendet werden, die java unterstützt.

Um diese Engine zu aktivieren muss die Zeile in der httpProxy.conf wie folgt lauten.

 BlackLists.class=de.lulabad.blacklist.regexURLPattern

Siehe auch:

Beispiel für eine Blackliste http://www.axmo12.de/yacy/axel.black

Lulabad Engines

Liste von Blacklisten zu bestimmten Themen

Persönliche Werkzeuge