Beim Text und Data-Mining gewinnt die Forschung aus großen Datenbeständen mit Hilfe analytischer Prozesse neues Wissen. Der Gesetzgeber sah sich veranlasst, das Text und Data-Mining für den nicht-kommerziellen Bereich urheberrechtlich zu erlauben. Was hat es damit auf sich?

Viele Disziplinen, unzählige Anwendungsfälle

Beim TDM werden Datenbestände systematisch computergestützt ausgewertet, um so Gesetzmäßigkeiten – Muster und Ausbrüche – auszumachen. Man kann vom Schürfen von Informationen sprechen. TDM findet in fast jede Wissenschaftsdisziplin Einzug – seien es Medizin, Literatur, Musik, Geschichte, Gesellschaft, Naturwissenschaft oder Technik. Die Big Data-Methode TDM führt den wissenschaftlichen Erkenntnisgewinn in eine neue Dimension.

Was zur Vorbereitung nötig ist: Digitalisierung, Strukturierung, Normalisierung

Material, aus dem Wissen gewonnen werden soll, kann man in seiner Rohfassung als Ursprungsmaterial bezeichnen – Abbildungen, Texte, Tabellen etc. „Ursprung”, weil es zunächst nicht strukturiert vorliegt, ggf. noch nicht einmal digitalisiert. So muss für den eigentlichen Analyseprozess das Material oft erst in Form gebracht werden: Text-PDFs werden in XML-Dateien umgewandelt, Audio wird transkribiert, schon bestehende Transkriptionen werden in andere Formate umgewandelt, Daten werden visualisiert, Visualisierungen werden zu XML-Text, Rohdaten werden einander technisch angeglichen, um gemeinsam in einen Analysealgorithmus zu passen.

Ist dann alles gesammelt, ins passende Format gebracht und normalisiert, ist aus dem Ursprungsmaterial ein Datenkorpus geworden. Dieses Korpus wird dann der Analyse zugeführt.

Ein Beispiel: Eine Sprachwissenschaftlerin möchte einen Zeitungsarchivbestand der letzten vierzig Jahre auf den Wandel des Duktus untersuchen. Nun wird es nach dem Scan des Materials technisch notwendig sein, die Abbildungen per OCR-Software lesbar zu machen und in XML-Dateien zu überführen, auf andere Datenträger zu kopieren, im Forscherteam zu tauschen.

Was hat Mining mit dem Urheberrecht zu tun?

Im genannten Beispiel kommt es an vielen Stellen zu Kopien. Schon jede Digitalisierung von analogem Material geht mit einer Kopie eines geschützten Textes einher, meist gefolgt von weiteren Kopien im Vorlauf zur Analyse. Diese Kopien sind fast immer urheberrechtlich relevante Vervielfältigungen (§ 16 UrhG). Das heißt: Für die Analyse-Vorarbeit müsste man im Umgang mit geschütztem Material um Erlaubnis fragen und Lizenzen einholen. Der eigentliche Analyseprozess ist hingegen wohl nicht relevant.

Solche Vervielfältigungen erlaubt künftig eine neue Regelung im Urheberrecht: die Schranke für Text und Data-Mining (§ 60d UrhG, tritt am 1. März 2018 in Kraft). Dort heißt es in Absatz 1:

Um eine Vielzahl von Werken (Ursprungsmaterial) für die wissenschaftliche Forschung automatisiert auszuwerten, ist es zulässig,
1. das Ursprungsmaterial auch automatisiert und systematisch zu vervielfältigen, um daraus insbesondere durch Normalisierung, Strukturierung und Kategorisierung ein auszuwertendes Korpus zu erstellen, und
2. das Korpus einem bestimmt abgegrenzten Kreis von Personen für die gemeinsame wissenschaftliche Forschung sowie einzelnen Dritten zur Überprüfung der Qualität wissenschaftlicher Forschung öffentlich zugänglich zu machen.
Der Nutzer darf hierbei nur nicht kommerzielle Zwecke verfolgen.

Künftig darf in Lizenzverträgen Data Mining auch nicht mehr verboten werden – die neue Schranke ist zwingendes Recht. Der Wissenschaft kann dies sicher eine hilfreiche Klarstellung sein.

Schranke nur für die nicht-kommerzielle Forschung

Zu beachten ist die Beschränkung auf den nicht-kommerziellen Bereich: Für die forschende Wirtschaft bleibt es dabei, dass für TDM Lizenzen eingeholt werden müssen – sei es im Zweifel, um sich rechtskonform zu verhalten. In der Praxis ist das oft ein immenser Aufwand. Der Gesetzgeber könnte sich überlegen, ob er nicht auch hier dem Grundsatz „Erlauben und Vergüten” folgen sollte. Die Entscheidung sollte auf europäischer Ebene getroffen werden, wo aktuell eine einheitliche Regelung zu TDM vorbereitet wird.

Data Mining und das Urheberrecht: ein umstrittenes Thema

Die Fachwelt zweifelt durchaus auch an, inwieweit Text und Data-Mining überhaupt urheberrechtlich relevant sein soll. Zunächst einmal ist vieles, was die Forschung per TDM analyisiert, urheberrechtlich gar nicht geschützt. Viele Rohdaten in der Forschung sind es nicht, etwa Messwerte, Logfiles, Statistiken. Zeitungsartikel und Musik sind es hingegen. Letztlich hängt es hier sehr stark von den Disziplinen ab, in denen man sich bewegt.

Und dann ist da die Grundsatzkritik: Beim Data Mining ist das Ziel der Gewinn von Information, die im Werk bzw. in einer Vielzahl von Werken enthalten ist. Information aber ist (urheberrechtlich) immer gemeinfrei, steht also nicht unter Lizenzvorbehalt. Was das Urheberrecht schützt, ist vielmehr die kreative äußere Form – und die wird bei der Analyse gewissermaßen nicht klassisch verwertet. Hier hilft ein Vergleich: Als Mensch etwas anzuhören, zu lesen, allgemein zu rezipieren, aufzunehmen und innerlich zu verarbeiten, ist urheberrechtlich gesehen irrlevant. Wenn sich ein Team aus Forschenden hinsetzt und das Zeitungsarchiv wälzt, so braucht es hierfür keine Lizenz. Übernimmt die Maschine die Analyse, gilt etwas anderes. Der Vergleich hat gewiss Brüche, aber er veranschaulicht eine Tendenz: Bei der Analyse mit der Maschine sind oft viel mehr erlaubnispflichtige Kopien nötig, obwohl das Nutzungsszenario so wenig klassisch in die wirtschaftliche Verwertung eingreift wie die Forschungsarbeit mit Stift und Brille. Zudem hat die Forschung oft schon für den Zugang von Material gezahlt. Das Petitum the right to read is the right to mine bringt diese Kritik auf den Punkt.

Übrigens hat das Thema auch eine datenschutzrechtliche Dimension. Um die soll es aber an anderer Stelle gehen.

RA Fabian Rack