Wer klaut hier meine Texte?

Plagscan.com klärt bei einem Text auf, ob er ein generisches Werk ist oder irgendwo aus dem Netz abgeschrieben wurde. Doch trotz des digitalen Hilfsmittels bleibt die Aufspürung von Plagiaten oder die Suche nach geklauten eigenen Texten eine aufwändige Angelegenheit.

plagscan.com hat nichts mit den biblischen Plagen zu tun, sondern mit Plagiaten: Diebstahl geistigen Eigentums oder, im Fall des Internets, abgekupferten Texten.

Frau Lehrerin, darf ich meine Hausarbeit aus dem Internet abschreiben, bitte?

Der Webdienst nimmt Textdokumente in den üblichen Formaten (Word, HTML, reiner Text) entgegen und führt dann eine Recherche durch, ob sich Teile aus dem Dokument irgendwo im Netz aufspüren lassen. Das Einsatzgebiet liegt auf der Hand und wird auf der Seite auch unumwunden ausgeführt:

Dieses Angebot richtet sich an Lehrkräfte von Schulen, Fachhochschulen und Universitäten, die Hausarbeiten auf plagiierte Textstellen aus Internet-Quellen untersuchen wollen. Wir raten Schülern und Studenten davon ab, ihre Arbeit vor Abgabe hier zu optimieren bis sie nicht mehr als Plagiat erkannt wird. Es gibt viele verschiedene Plagiatssoftware und die Analyse-Techniken variieren.

There is gambling going on?

Kommen Schüler tatsächlich auf solche Ideen? (Ihr müsst euch vorstellen, dass ich diese Frage mit einem unschuldigen Augenaufschlag in die Runde werfe.) Zu meinen Zeiten hätte es sowas jedenfalls nicht gegeben.

Naja, das Internet hat es auch nicht gegeben. Darum ist es müssig, darüber zu spekulieren, wie gross die Versuchung gewesen wäre, bei lästigen Hausaufgabethemen ein bisschen Hilfe von Wikipedia und Co. in Anspruch zu nehmen. Keine grossen Zweifel bestehen, dass ich mir bei den Latein-Übersetzungen gern hätte unter die Arme greifen lassen. In nova fert animus mutatas dicere formas corpora, Hölle und Verdammnis nochmals!

So werden die Fundstellen aufgeschlüsselt – das hier ist kein Plagiat.

Für mich als Journalist ist der Dienst praktisch, um bei einer Textstelle abzuklären, ob ich bei der Originalquelle angelangt bin oder ob es weitere Ausprägungen gibt. Ich könnte natürlich auch meine eigenen Texte überprüfen, wenn mich interessieren würde, ob Informationen aus diesem Blog oder meinen Artikeln irgendwo sonst im Netz auftauchen – sei es als Zitat oder als 1:1-Übernahme mit oder ohne Quellenangabe – es kommt ja immerhin vor, dass ganze Blogs geklaut werden, wie wir in der Kummerbox-Live-Sendung CSI Cyber! besprochen haben. Aufgrund der vielen News-Aggregatoren ist das jedoch ein unerquickliches Unterfangen, für das ich meine Zeit nicht opfern will.

Die Plagiatssuche ist eine zeitaufwändige Angelegenheit

Die Prüfung dauert ihre Zeit und liefert die Treffer nach Relevanz sortiert, wobei man Textstellen, die der Dienst für abgekupfert hält, ausklappen und auf der Seite studieren kann: So sieht man, ob es sich beispielsweise um ein Zitat handelt, das für sich stehend natürlich legitimerweise von vielen Leuten gebraucht werden dürfte. Ab einem zweistelligen Relevanzindex sollte man der Sache nachgehen. Darunter können auch Texte zu finden sein, die sich mit einem verwandten Thema befassen und darum ein ähnliches Vokabular verwenden.

Wie die Plagiatssuche funktioniert, wird im Detail nicht beschrieben – was natürlich auch verhindern soll, dass Plagiateure den Algorithmus austricksen. Eine Andeutung gibt es jedoch:

Glücklicherweise folgt aus dem Zipfschen Gesetz, dass Texte oder auch nur Formulierungen ihre eigene, wiederfindbare Signatur haben. (Das Gesetz besagt grob, dass einige Wörter sehr häufig auftreten während die meisten selten sind, was bei Wortkombinationen noch verstärkt der Fall ist.) Natürlich können Computer ausgetrickst werden, aber Textsignaturen sind nur mit Mühe zu verfälschen, weshalb die Recherche mit PlagiatCheck.de sehr effizient die dreisteren Plagiatoren entlarvt.

Das Zipfsche Gesetz müsste einem ehemaligen Linguistikstudenten wie mir eigentlich geläufig sein. War es aber nicht. Operiert wird jedenfalls mit der Worthäufigkeit, aus der eine Signatur gebildet wird, die auf den Index zur Anwendung kommt. Interessant wäre zu wissen, wie lang eine Phrase sein muss, damit sie gefunden wird. Dazu konnte ich aber keine Erhebungen anstellen, weil für einen Freeloader wie mich die Zahl der Scans beschränkt sind.

Lehrer sind arme Schweine

Womit wir bei den Preisinformationen wären: Der Dienst ist gratis. Für Nichtzahler ist die Zahl der Suchläufe und der Länge der Dokumente beschränkt¹. Die kostenpflichtigen Angebote ohne diese Limiten starten bei 10 Euro pro Monat.

Fazit: Ein praktischer Dienst, der es einem erspart, von Hand nach charakteristischen Sätzen aus einem Text zu googeln, wenn man sich dessen Originalität versichern möchte. Die Lehrer, die sich tagtäglich mit diesem Instrument herumschlagen müssen, beneide ich allerdings nicht. Müssen die dann sogar die in krakeliger Schülerschrift geschriebenen Aufsätze abtippen, um sie durch den Plagiat-Check durchzujagen? Poor bastards!

Fussnoten

1) Die Limite scheint sich auf die IP-Adresse zu beziehen, sodass man auch mit einem Zweitbrowser nicht zu weiteren Tests kommt, wenn man seine zwei bis drei Analysen durchgeführt hat.

Kommentar verfassen