Diese Seite beinhaltet Instruktionen dazu, wie sie einige der im Kurs verwendeten Textdateien von der Webseite des Project Gutenberg herunterladen und in eine zur Verarbeitung geeignete Form bringen können. Auch wenn diese Dateien nicht dem Urheberschutzrecht unterliegen, so müsse sie dennoch, um sie sinnvoll für Frequenzanalysen, bzw. zur Umwandlung in XML, verwenden zu können, ediert werden, wodurch leider alle Verweise auf die Quelle und die nützliche und wichtige Arbeit dieses Projekts verloren gehen.
Die beiden Dateien mit literarischen Texten, die Sie von der obengenannten Seite herunterladen sollten, können Sie unter den folgenden Links herunterladen:
Zum direkten Herunterladen verwenden Sie am besten einen rechten Mausklick und wählen dann die entsprechende Option Ihres Browsers zum Speichern des Links auf dem Computer, da sonst die Textdatei einfach zur Ansicht im Browserfenster geöffnet wird. Die Dateien sollten jeweils unter dem Namen des Autors und Werkes, also als kafka_verwandlung.txt und hesse_siddhartha.txt, gespeichert werden. Sollten Sie dennoch versehentlich den Link im Browserfentser geöffnet haben, so können Sie den Text natürlich auch über den Textexport des Browsers abspeichern, wobei Sie aber sicherstellen müssten, dass der Text dann auch tatsächlich mit seiner Originalkodierung UTF-8 abgespeichert wird.
Sobald sie die Dateien heruntergeladen haben, sollten Sie diese in einem geeigneten Editor oder Ihrer IDE öffnen und zunächst alle Textteile mit Metainformationen vor dem Beginn des eigentlichen Texts löschen und dann dasselbe am Textende tun. Ob sie dabei auch etwaige Überschriften oder Informationen zur Edition löschen, bleibt Ihnen überlassen, vorausgesetzt, dass im Prinzip nur der eigentlich Text der Werke erhalten bleibt, um diesen später entweder automatisch analysieren oder in XML umwandeln zu können.
Eine weitere Datei namens beispiel_saetze.txt finden Sie in dem zip-Archiv, welches die Programmcodes enthält.