Geklaute texte finden: Plagiatsprüfung mit Copyscape & Co

Betreiber von Blogs, Portalen und Onlineshops investieren viel Herzblut und Zeit in die Erstellung ihres Contents. Doch immer wieder kommt es vor, dass die mühsam erarbeiteten Texte ganz oder teilweise kopiert und auf anderen Webseiten verwertet werden. Nachfolgend stelle ich Euch einige Dienstleister vor, die dabei helfen, geklaute Texte zu finden, um Content Dieben auf die Spur zu kommen.

Plagiatsprüfung als Investment-Schutz

Egal, ob eine Website als Hobby oder mit kommerziellen Absichten betrieben wird, einzigartige Texte stellen meistens das Kerninvestment dar. Plagiatsprüfungen schützen diese Investition, da Contenklau weitreichende Schäden für den eigentlichen Urheber nach sich ziehen kann.

So verursacht Contenklau zunächst einen direkten wirtschaftlichen Schaden, wenn sich ein Mitbewerber mit fremden Federn schmückt. Der Dieb spart Zeit und damit Arbeitskraft bei der Texterstellung ein und kann dennoch die Lorbeeren ernten, wie etwa Werbeeinnahmen, Bestellungen oder Traffic. Unabhängig davon, dass hier der juristische Tatbestand einer Urheberrechtsverletzung erfüllt ist, dürfte sich der direkte wirtschaftliche Schaden in Grenzen halten, vorausgesetzt, der Leser ruft direkt die URL des Contendiebes auf.

Wirtschaftlich gravierender hingegen können die indirekten Folgen sein, die sich aus einer Abstrafung der Suchmaschinen beim Ranking ergeben können. Suchmaschinen verbannen Duplicate Content (Doppelte Inhalte) häufig auf die hinteren Plätze, da sie nicht so ohne weiteres feststellen können, welches die Originaltexte und welches die Kopien sind. Im schlimmsten Fall ist sogar die komplette Entfernung der Domain aus dem Index möglich. Doch bereits geringfügige Abstrafungen beim Ranking führen zum Einbruch der gewohnten Besucherzahlen, da die meisten User ihre Zielseiten über Suchmaschinen wie Google ansteuern und dort lediglich die höchstplatzierten Ergebnisse beachten. Diese indirekte Folge kann im Zweifel zur faktischen Wertlosigkeit des gesamten Projektes führen.

Statt irgendwann nach einer erfolgten Abstrafung höheren Platzierungen langfristig hinterherzulaufen, sollten Seitenbetreiber unbedingt präventiv tätig werden. Im Besten Fall sollten entsprechende Kontrollen als fester Bestandteil der SEO-Prozesse angesehen und integriert werden. Dies gilt umso mehr, wenn man bedenkt, dass der Aufwand der Überwachungen im Vergleich zu sonstigen SEO-Anstrengungen verhältnismäßig wenig Ressourcen beansprucht.

Copyscape

Copyscape ist ein Klassiker um Content Dieben auf die Spur zu kommen. Die Bedienung ist simpel: Einfach die URL eingeben und schon werden mögliche Plagiate ausgegeben. Sehr interessant an dem Dienst ist, dass nicht nur plumpe 1:1-Kopien gefunden werden, sondern auch kopierte Textpassagen und sogar abgewandelte Texte.

In der Grundausführung lässt sich Copyscape gratis einsetzen, wobei der Funktionsumfang auf 10 Anfragen pro Monat für eine URL begrenzt ist und auch von etwaigen Treffern nur die ersten 10 angezeigt werden. Eine weitere Einschränkung besteht darin, dass jede Vergleichsanfrage manuell über das Webinterface angestoßen werden muss.

Aufgehoben werden diese Einschränkungen beim kostenpflichtigen Premiumzugang, dessen Nutzung mit 5 US-Cent pro Abfrage berechnet wird. Zusätzlich steht ein erweiterter Leistungsumfang zur Verfügung. So können auch offline bereitgehaltene Texte über eine Suchmaske per Copy & Paste auf ihr Vorkommen im Web zu überprüft werden und für automatisierte Suchabfragen wird eine API-Schnittstelle angeboten, für die es auch ein WordPress-Plugin gibt. Bei einer Suche per URL können Filter definiert werden, etwa um alle Unterseiten einer Domain automatisch mit zu durchsuchen oder bestimmte URLs explizit von der Suche auszuschließen.

Unter dem Namen Copysentry wird schließlich eine Produktvariante angeboten, die vollkommen automatisiert eine Dublettenüberprüfung ausführt. Möglich ist entweder eine wöchentliche Abfrage zum Preis von 4,95 US-Dollar im Monat oder sogar eine tägliche Abfrage, für die dann schon eine Grundpauschale von 19,95 US-Dollar monatlich berechnet wird. Sollte Copysentry ein Plagiat finden, wird der Seitenbetreiber bequem per E-Mail benachrichtigt.

PlagAware

Eine deutschsprachige Alternative zu Copyscape ist der Dienst PlagAware. Leider bietet PlagAware keine Möglichkeit an, ohne vorherige Anmeldung und Authenitifizierung eine URL zu durchsuchen. Statt dessen wird lediglich einer Suchmaske zur manuellen Texteingabe angeboten. Wer sich zu einer Anmeldung durchringt, kann zum Testen zunächst den Tarif FREE wählen, mit dem sich 30 Seiten im Monat kostenfrei durchsuchen lassen.

Bevor die Domain gecrawlt werden kann, muss zunächst eine Authentifikationsdatei ins Hauptverzeichnis der Domain kopiert werden. Bei der Erfassung der Domain können Filter gesetzt werden, um etwa Unterseiten mit zu berücksichtigen oder bestimmte URLs auszuschließen. Auch eine aktive Übermittlung mittels JavaScript im Quellcode ist möglich, was eine automatisierte Erfassung neuer Artikel ermöglicht. Alternativ wird zusätzlich eine API-Schnittstelle angeboten.

Die Kosten für zusätzliche Suchanfragen betragen im Free-Tarif zwischen 2 und 3 Cent. Alternativ werden für Nutzer, die regelmäßig viele Suchanfragen durchführen, drei weitere Tarifmodelle angeboten. Allerdings sollte der Abschluss eines solchen Abonnement-Tarifs gut überlegt sein, da Vorauszahlungen bei Nichtnutzung verfallen und eine sechsmonatige Vertrags-Mindestlaufzeit vereinbart wird. Ähnlich wie Copyscape erkennt PlagAware ebenfalls nicht nur bloße 1:1-Kopien, sondern auch Abwandlungen sowie übernommene Textpassagen.

Plagium

Vor allem im englischsprachigen Raum ist Plagium bei Publizisten recht beliebt. Der Hauptunterschied zu den bisher vorgestellten Lösungen besteht darin, dass er grundsätzlich kostenlos nutzbar ist. Text bis 25.000 Zeichen kann ohne Anmeldung per Copy & Paste durchsucht werden, für einen URL-Check muss hingegen zunächst ein Konto erstellt werden.

Die Ergebnisse der von uns durchgeführten Suchanfragen waren durchgängig sehr gut und waren beispielsweise vergleichbar mit denen von Copyscape. Leider bietet Plagium keinen automatisierten URL-Check an. Lediglich Textblöcke lassen sich über einen Meldedienst einmal pro Woche automatisiert überprüfen, die Benachrichtigungen erfolgen per E-Mail oder RSS.

CopyGator

Der Dienst CopyGator hat sich auf das Auffinden sogenannter Scraper Sites spezialisiert. Hierbei werden die RSS-Feeds, welche insbesondere von Blogs angeboten werden, automatisiert ausgelesen und als eigener Content gespickt mit Werbung publiziert.

CopyGator wird als komplett kostenloser Service angeboten. Die zu überwachende Seite muss lediglich einmalig bei dem Dienst angemeldet werden. Über eventuelle Funde kann man sich bequem per E-Mail oder RSS informieren lassen. Im nächsten Schritt lässt sich dann der originale Text mit der gefundenen Kopie in einer Gegenüberstellung direkt verglichen. Der Dienst erkannt ebenfalls nicht nur exakte Kopien, sondern auch Teilauszüge bzw. Zitate auf fremden Webseiten.

©Feed

Speziell für Nutzer von WordPress existiert ein von Frank Bültge entwickeltes Plugin namens ©Feed, welches ebenfalls das Auffinden von Scraper Sites erleichtern soll. Um dieses zu erreichen, fügt das Plugin einen beliebigen Copyrighthinweis und eine Art digitales Wasserzeichen in Form eines Zufallsschlüssels nach jedem Artikel ein, der von den Suchmaschinen mitindiziert wird und damit über selbige auffindbar ist.

Denkbar wäre beispielsweise, diesen Schlüssel bei dem kostenlosen Suchmaschinen-Überwachungsdienst Google Alerts zu hinterlegen, welcher automatisch eine Benachrichtigung per E-Mail versenden würde, sobald der Zufallsschlüssel im Index von Google neu auftaucht.

Der Ansatz dieses Plugins, den Feed durch eine Art digitales Wasserzeichen zu kennzeichnen, kann natürlich ausgehebelt werden, wenn sich der Contentdieb die Mühe macht, diese Informationen vor der Verwertung herauszufiltern. In der Praxis ist dies jedoch extrem unwahrscheinlich, da Scraper Sites fast ausschließlich automatisiert aggregiert werden.

TinEye

TinEye ist eine Bildersuchmaschine, die sich darauf spezialisiert hat, bekannte Bildmotive im Web aufzuspüren. Hierzu lädt man ein bereits lokal vorhandenes Bild hoch oder gibt eine Linkadresse aus dem Web an. TinEye versucht nun, sämtliche Webseiten zu ermitteln, die das Motiv ganz oder teilweise verwenden. Diese Art von Rückwärtssuche kann beispielsweise hilfreich sein, wenn man für eine Präsentation über die Google-Bildersuche zwar ein passendes Motiv findet, die Auflösung aber für den angestrebten Verwendungszweck nicht ausreichend ist.

Der von TinEye verwendete Algorithmus kann aber auch sehr gute Dienste Leisten, um illegal verwendete Bilder im Netz aufzuspüren. Bei unseren Tests funktionierte die Zuordnung erstaunlich präzise. Komplett vorhandene Ursprungsbilder konnten fast immer aufgefunden werden, aber auch zugeschnittene, verfremdete oder gedrehte Bilder wurden recht zuverlässig erkannt.

TinEye ist in der Grundausführung komplett kostenfrei nutzbar, sofern man sich mit der manuellen Suche zufriedengibt. Zusätzlich werden Plugins für alle gängigen Browser sowie ein Bookmarklet angeboten, was sporadische Suchen etwas komfortabler macht. Automatisierte Suchen sind nur über die API möglich, deren Zugang kostenpflichtig ist. Für 5000 Suchanfragen werden beispielsweise 300 US-Dollar fällig.

Fazit

Dank spezialisierter Dienstleister ist das Aufspüren von Contentdieben fast schon so einfach möglich wie der Diebstahl selbst. Da vollkommen automatisierte Lösungen recht hohe Kosten verursachen können, wird ihr Einsatz eher bei Umsatzstarken Webseiten Sinn machen. Semiprofessionelle Seitenbetreiber könnten so verfahren, dass sie nur ihre wirklich trafficstarken Seiten regelmäßig überprüfen. Unabhängig von der praktischen Ausgestaltung sollte jedoch jeder Seitenbetreiber präventiv im Rahmen der SEO-Prozesse tätig werden, um möglichen Abstrafungen beim Suchmaschinenranking entgegenzuwirken.

Findet man ein Plagiat, sollte man umgehend beim Dieb auf Entfernung der geklauten Inhalte drängen oder rechtliche Schritte einleiten. Zusätzlich sollte man Google den Datenklau gemäß des Digital Millennium Copyright Act (DMCA) melden.

Über Jens Kilgenstein

Ich bin seit über zehn Jahren im Bereich Webdesign tätig und betreue seitdem kleine und große Kunden bei der Konzeption und Umsetzung von Webprojekten. → Zum Profil

Ebenfalls Lesenswert:

4 Reaktionen zu Geklaute texte finden: Plagiatsprüfung mit Copyscape & Co

  1. Thomas 2. Januar 2013 at 18:36 #

    Danke für den informativen Artikel, habe das Thema Plagiatsprüfung direkt auf meine To-Do-Liste gesetzt!
    Als Ergänzung würde mir auch noch http://de.similarsites.com/ einfallen…

  2. Jens Kilgenstein 3. Januar 2013 at 11:55 #

    @Thomas:
    Eine Ergänzung speziell zum Auffinden geklauter Texte sehe ich in SimilarSites nicht wirklich, da der Dienst Webseiten miteinander vergleicht und Alternativen für die Benutzer heraus sucht (primär anhand der Keyword-Dichte). Google selbst bietet so eine Funktion übrigens auch selbst an, nennt sich Ähnliche Seiten.

  3. Core Design Studio 8. Januar 2013 at 14:49 #

    Wow .. Wusste gar nicht wie viele Tools es eigentlich gibt. bisher war ich nur bei Copyscape Stammkunde ;-) Die anderen Tools werde ich gleich einmal ausprobieren. Der Nachteil an guten Platzierungen in den Suchmaschinen, ist der Contentklau, Bilderklau etc .. Bin gespannt was die Tools so zu Tage fördern. Vielen Dank und ein gutes neue Jahr 2013. VG, Mario

  4. Heilpflanzenlexikon 27. März 2014 at 22:21 #

    Danke für diese tolle Zusammenstellung.
    Man kann seinen eigenen Content nicht gut genug schützen.
    Es ist einfach schade wenn man sich studen lang die mühe gemacht hat einen tollen Artikel zu schreiben der am ende im ganzen internet verstreut liegt. :-(

Hinterlasse eine Antwort