Entwicklungstendenzen

images

Suchmaschinen gelten heute als die vorherrschenden Informationssysteme. Sie passen sich einerseits dem Verhalten der Nutzer an, andererseits prägen sie auch dessen Informationsverhalten. Bedenklich wird dies an dem Punkt, wenn Nutzer all ihre Recherchen vorbehaltslos mit einer Suchmaschine durchführen, da diese mittels ihrer Rankingalgorithmen die Informationswahl, und somit auch die Wissensaneignung bestimmt. (Lewandowski 2013, S. 11)

Seitens der Benutzer besteht vorwiegend das Bild, dass sich mit Google sämtliche Informationen aus dem WWW auffinden lassen. (Lewandowski 2011, S. 1)

Ganz abgesehen davon, dass Suchmaschinen die Inhalte des „Deep Webs“  nicht erfassen, sind auch externe Einflüsse wie Suchmaschinenoptimierung (SEO), Werbetreffer, Verzerrungen und Monopolisierung des Marktes nicht zu unterschätzen. (Lewandowski 2013, S. 11 ff.)

Als wesentliche Herausforderungen der näheren Zukunft gelten die Einbindung von Invisible- Webcontent, der Umgang mit Paid Content, sowie die intuitive Benutzerführung. (Lewandowski 2013, S. 1)

Die Abdeckung der Webinhalte durch Suchmaschinen dürfte aber dennoch abnehmen, da die Anzahl konventioneller Webseiten (HTML, Standardformate) schneller wächst, als die Suchmaschinen indexieren können. Andererseits breitet sich das sogenannte „Deep Web“  mit einer extremen Geschwindigkeit aus. (Lewandowski 2011, S. 8) Besonders die umfangreichen Informationsangebote der traditionellen Informationsanbieter  wie LexisNexis u.a. werden von traditionellen Suchmaschinen kaum erschlossen, wobei fragwürdig ist, ob kostenpflichtige Dokumente in das Raster der heutigen Suchdienste passen. (Griesbaum et al. 2004, S. 12 ff.)

Denkbar wären wohl hybride Suchmaschinen, welche sowohl frei zugängliche Dokumente, als auch kostenpflichtige Inhalte anbieten. Auch möglich wäre, dass die Anbieter der Inhalte die Suchdienste für eine gewählte Indexierung bezahlen (was teilweise auch schon gemacht wird). Ein weiterer Weg wäre den Suchmaschinen einen Volltext zur Indexierung vorzulegen, wobei der Nutzer vorerst nur ein Abstract auffinden kann und erst durch die Bezahlung auf den Volltext zugreifen kann. (dies geschieht zum Teil schon bei Google Scholar ) (Lewandowski 2011, S. 8)

Ich persönlich finde es fragwürdig, ob es wirklich nötig ist, dass Google auch auf die Inhalte des „Deep Webs“  zugreifen kann. Abgesehen von Filter Bubbles und dem Trend zur Personalisierung erscheint die Kritik, dass Google nicht die Qualität der traditionellen Suchdienste erreicht nicht wirklich praxisrelevant, da die meisten, welche Google für private Zwecke nutzen, ihre Bedürfnisse befriedigt sehen. Zudem würde die Hürde eine Suchmaschine zu bedienen über die Durchmischung von wissenschaftlichen, als auch „normalen“ Informationen möglichweise ansteigen. Vielmehr sollte es doch darum gehen, ein Bewusstsein dafür zu schaffen, dass es neben Google noch sehr viele andere Möglichkeiten gibt, so dass die Idee der Inhalte des WWW nicht auf die Suchergebnisse von Google reduziert wird. Möglicherweise liegt der Ansetzungspunkt zur Handlung nicht bei den Suchmaschinenbetreibern, sondern vielmehr bei der Informationskompetenz der Nutzer.

 

Arabischer Frühling

Besonders in Ländern mit restriktiver Internetzensur tragen anonymisierte Internetdienste Erhebliches zur Bildung der politischen Meinung bei, emöglichen Oppositionellen und politischen Aktivisten Internet-Sperren zu umgehen und einen Weg zu finden, sich für ihre Ideale und ihre Überzeugung einzusetzen. In diesem Beitrag soll erläutert werden, wie anonymisierte Dienste  wie Tor und Freenet, aber auch die Neuen Medien den Verlauf der Revolution im arabischen Raum, des Arabischen Frühlings, geprägt haben.

Arabischer Frühling: Friedliche Reformen oder gewaltsame Repression?

Arabischer Frühling (Quelle:Spiegel)

Als gewaltiger Katalysator kann das Internet ein Schlüssel zur Macht der Vielen sein, die Art und Weise des Widerstands auf eine völlig neue Grundlage stellen. (Bernold et al., S.11 2012) Doch in Ländern, wo eben diese Möglichkeiten so nicht genutzt werden können, wo Zensur herrscht, Seiten wie Facebook, Amnesty International, YouTube gesperrt werden, Korruption, Ungleichheit und Unterdrückung zur Tagesordnung gehören, bleibt als einzige Möglichkeit durch extreme Handlungen auf sich aufmerksam zu machen, zu protestieren. Wie der junge tunesische Gemüsehändler Mohamed Bouazizi, der sich selbst angezündet hat, weil er keine Bewilligung für seinen Gemüsestand erhielt und dadurch keine Lebensperspektive mehr sah. Seine Selbstverbrennung war der Auslöser für die landesweiten Unruhen und der Dominostein, der alles ins Rollen gebracht hat. Und auch der Auslöser für den sogenannten Cyber-Krieg: Tunesische Aktivisten hackten gemeinsam mit Anonymous Webseiten der Regierung und legten sie mit cleveren Attacken lahm. [El Difraoui 17.05.2013]

Aufschrift Twitter an einem Laden nahe dem Tahrir-Platz in Kairo im Februar 2011; Foto: Peter Macdiarmid/Getty Images

Aufschrift Twitter an einem Laden nahe dem Tahrir-Platz in Kairo im Februar 2011(Quelle: Qantara.de)

Auch wenn die Medien sie als Twitter- oder Facebook-Revolution bezeichneten, spielte sich die Arabische Revolution zum grossen Teil nicht im virtuellen Raum ab. Sie hat auf der Strasse stattgefunden, kostete mehreren hundert Menschen das Leben. Die hohe Arbeitslosigkeit und die Sehnsucht nach mehr Freiheit und Demokratie waren der Motor für die Versammlung von tausenden Menschen, alle mit dem gleichen Ziel: Der Unterdrückung durch die Regime den Kampf ansagen! Wo die Hände eines Karikaturisten gebrochen werden, weil er regimekritische Karikaturen zeichnet, wo die Stimmbänder eines Sängers durchschnitten werden, weil er Protestsongs singt, sind Revolutionen als natürliche oder unumgängliche Reaktion zu betrachten. So auch beim Arabischen Frühling, wo Unterdrückte plötzlich erfuhren, dass sie nicht allein mit ihrer Wut sind.

Dennoch sollte die Rolle der Blogs, des Social Media, allgemein der Neuen Medien nicht unterschätzt werden.

„Virtuelle Plattformen ermöglichen nicht nur eine freie Meinungsäußerung, sondern können zudem eine große Masse von Menschen mobilisieren. Du musst wissen, dass du auf dem Platz nicht der Einzige bist, der gegen das System demonstriert.“ [Milz 17.05.2013]

Erst durch diese wurde es möglich, „die Revolution vom Wohnzimmer auf die Strasse zu tragen“. [Focus 17.05.2013]  Fürwahr können Neue Medien bewirken, dass Menschen, die in virtuellen Räumen aufeinander treffen und über die gleichen Ansichten verfügen, zu sozialen Gruppen werden. Vermischt sich Virtuelles und Reales, kann der Zusammenhalt dieser sozialen Gruppen verstärkt werden. Menschen, die einst Medien-Konsumenten waren, wurden durch den Arabischen Frühling und das Zusammenwirken verschiedener Medien zu Medien-Produzenten, indem sie ihre Eindrücke per Handy- oder Kamera-Filme mit Gleichgseinnten teilten. [El Difraoui 17.05.2013]

Hunderttausende Ägypter demonstrieren auf dem Tahrir-Platz in Kairo gegen Präsident Mursi, November 2012; Foto: dapd

Hunderttausende Ägypter demonstrieren auf dem Tahrir-Platz in Kairo gegen Präsident Mursi (Quelle:Qantara.de)

Eine grosse Rolle hat auch Tor hat bei den Unruhen gespielt; ägyptische Online-Aktivisten, Journalisten und Blogger waren auf Tor angewiesen, um sich trotz Internetzensur austauschen zu können. Jacob Appelbaum, Mitentwickler von Tor, soll aktiv Nutzer im arabischen Raum darin geschult haben, wie sie diesen Dienst auf eine möglichst sichere Weise nutzen können. [Locker 17.05.2013]

“Because Twitter and other websites were blocked, people in Egypt actually used Tor as a proxy for their web browser[…] In that case, Tor is extremely secure and no matter what you are doing over Tor you are almost certainly better off than the government that might arrest you for behavior you do on the Internet or for other things that they would be able to detect and log and then later analyze” [Zahorsky 17.05.2013]

Was sich hinter dem Begriff Tor verbirgt und dessen Funktionsweise, wurde im Beitrag zu Cyberkriminalität erläutert.

Das Internet, welches ein neutrales Medium ist, steht allen frei zur Verfügung. Ebenso die technischen Möglichkeiten einer „interaktiven, dezentralen und anonymen Verbreitung über digitale Medien, sind sowohl für demokratische Oppositionelle als auch für Machthaber offen.“ [Kneuer&Demmelhuber 17.05.2013] Es wäre also nicht ganz falsch, wenn in diesem Zusammenhang von „Deep Web“ als Chance, als eine Möglichkeit seine Meinung kundzutun, gesprochen werden kann.

Deep Web als Chance?

„Wer oberflächlich »googlet«, findet letztlich doch nur das, was alle anderen eben auch finden, so dass Sie mit zusätzlicher Recherchekompetenz nicht zuletzt auch die Chance auf ein echtes Alleinstellungsmerkmal im publizistischen Wettbewerb erwerben können.“[Innokomm 17.05.2013]

Und das ist auch tatsächlich so! Wie wir es in unserem Blog mit verschiedenen Beiträgen versucht haben darzustellen, kratzt man mit der klassischen Google-Suche nur an der Oberfläche und ignoriert das ca. 400-550 mal grössere Deep Web. Da die Leistung der gängigen Suchmaschinen begrenzt ist, finden sie auch nur Offensichtliches. Das Deep Web hingegegen bietet eine grosse Menge an qualitativ hochwertigen Inhalten, seien es wissenschaftliche Suchmaschinen, Bibliothekskataloge oder aber auch Fachdatenbanken, die die Basis der wissenschaftlichen Recherche bilden.

Leider bietet das Deep Web auch Raum für kriminelle Energien, da mit anonymisierten Diensten die Identität verborgen bleibt und somit die Hemmschwelle zu deviantem Verhalten geringer wird. Da jede Nutzen bringende Entdeckung früher oder später auch für kriminelle Zwecke missbraucht wird, werden Nutzer im Netz, zum Teil auch unbewusst, mit risikobehafteten Inhalten konfrontiert. Die Möglichkeit der Verschleierung macht das Internet zu einer attraktiven Option Delikte zu begehen, sei es schnell ans Geld ranzukommen oder aber auch Seiten, die illegale pornographische Inhalte anbieten, zu besuchen.

Zusammenfassend kann festgehalten werden, dass das Deep Web, sowohl eine Bereicherung für die wissenschaftliche Suche, als auch eine Gefahr für die moderne Informationsgesellschaft darstellt. Entscheidend sind der gesunde Menschenverstand und die  Motivation hinter der Nutzung der Deep Web Dienste.

Illegale Pornografie

„Das Internet darf kein rechtsfreier Raum sein!“ […] Web-Nutzer machen sich nun in Ketten-Postings über diese Phrase lustig. Tatsächlich verschleiert das Gerede vom rechtsfreien Raum die wahren Probleme.“ (Lischka 2009 [10.05.2013])

Wie im Blogeintrag „Cyberkriminalität“ erwähnt, stellt illegale Pornografie einen der Bereiche dar, für welche das „Deep Web“ missbraucht wird. Dieser Beitrag soll sowohl die rechtlichen Grundlagen aufzeigen, als auch verdeutlichen,  inwiefern diese Thematik geahndet wird.

Unter illegaler Pornografie wird harte Pornografie verstanden. Dies umfasst Kinderpornografie, Tierpornografie, gewalttätige Pornografie, sowie das Fehlen eines Zugriffschutzes für Minderjährige auf Seiten, welche Internet- Sexualität beinhalten. Dieser Beitrag wird sich insbesondere mit dem Phänomen der Kinderpornografie befassen.

Artikel 197 des Strafgesetzbuches der Bundesbehörde der schweizerischen Eidgenossenschaft hält fest, in welcher Form Pornografie strafbar ist:

1.  Wer pornografische Schriften, Ton- oder Bildaufnahmen, Abbildungen, andere Gegenstände solcher Art oder pornografische Vorführungen einer Person unter 16 Jahren anbietet, zeigt, überlässt, zugänglich macht oder durch Radio oder Fernsehen verbreitet, wird mit Freiheitsstrafe bis zu drei Jahren oder Geldstrafe bestraft.

2.  Wer Gegenstände oder Vorführungen im Sinne von Ziffer 1 öffentlich ausstellt oder zeigt oder sie sonst jemandem unaufgefordert anbietet, wird mit Busse bestraft.

Wer die Besucher von Ausstellungen oder Vorführungen in geschlossenen Räumen im Voraus auf deren pornografischen Charakter hinweist, bleibt straflos.

3.  Wer Gegenstände oder Vorführungen im Sinne von Ziffer 1, die sexuelle Handlungen mit Kindern oder mit Tieren, menschlichen Ausscheidungen oder Gewalttätigkeiten zum Inhalt haben, herstellt, einführt, lagert, in Verkehr bringt, anpreist, ausstellt, anbietet, zeigt, überlässt oder zugänglich macht, wird mit Freiheitsstrafe bis zu drei Jahren oder Geldstrafe bestraft.

Die Gegenstände werden eingezogen.

3bis.1  Mit Freiheitsstrafe bis zu einem Jahr oder mit Geldstrafe wird bestraft,2 wer Gegenstände oder Vorführungen im Sinne von Ziffer 1, die sexuelle Handlungen mit Kindern oder Tieren oder sexuelle Handlungen mit Gewalttätigkeiten zum Inhalt haben, erwirbt, sich über elektronische Mittel oder sonst wie beschafft oder besitzt.

Die Gegenstände werden eingezogen.

4.  Handelt der Täter aus Gewinnsucht, so ist die Strafe Freiheitsstrafe bis zu drei Jahren oder Geldstrafe. Mit Freiheitsstrafe ist eine Geldstrafe zu verbinden.

5.  Gegenstände oder Vorführungen im Sinne der Ziffern 1–3 sind nicht pornografisch, wenn sie einen schutzwürdigen kulturellen oder wissenschaftlichen Wert haben.

[9.05.2013]

Ziffer 3 des Gesetzbuches besagt, dass sowohl die Verbreitung, der Besitz und auch die Beschaffung von Schriften-, Ton- oder Bildaufnahmen, deren Inhalt sexuelle Handlungen an Kindern zeigt, strafbar sind.

Pornografisches Material wird meist über das Internet verbreitet; einerseits von kommerziellen Anbietern, welche auf eine professionelle Art und Weise Pornografie mit Kindern produzieren und andererseits aus privaten Produktionen, mit Opfern aus dem direkten sozialen Umfeld, oder durch Aufnahmen von Kindersextouristen und Freiern.

Sowohl der kommerzielle Verkauf, als auch Peer-to-Peer-Netzwerke werden für die Verbreitung genutzt. Es missbrauchen also sowohl kriminelle Gruppierungen, als auch Pädosexuelle das Internet um Kinderpornografie auszutauschen. (KOBIK [9.05.2013])

Laut Kokta (2008, S. 9ff.) existieren im WWW weit über eine Milliarde Seiten, über 80.000 Newsgroups und um die 25.000 Chat-Kanäle, welche der Verbreitung von Produzenten und Konsumenten zum Austausch von kinderpornografischem Material verwendet werden.

Zur Entgegenwirkung dienen juristische Massnahmen, technische Massnahmen im Netz, technische Massnahmen seitens der Benutzer, sowie die Bildung der Nutzer. (Kokta 2008, S. 10)

In der Schweiz ist die KOBIK (Koordinationsstelle zur Bekämpfung von Internetkriminalität) Anlaufstelle für alle Delikte, welche im Cyberspace stattfinden. Zudem sucht diese selbst aktiv nach verbotenen Inhalten im Netz. Es wird verdachtsunabhängig nach Personen geahndet, die sich in sexueller Absicht Kindern über das Web nähern. Werden Auslandsbezüge festgestellt, werden die entsprechenden Daten via Interpol den Behörden zur Verfügung gestellt.

Schweizerischen Internetdienstanbietern werden zudem Listen mit Links von ausländischen Seiten ausgehändigt, welche kinderpornografischen Inhalte enthalten, doch trotz Löschungsantrag weiterhin verfügbar sind. Anstelle der gewünschten Seite erscheint dann ein Verbotshinweis. (KOBIK [9.05.2013])

Auf Ebene der europäischen Union wurde nach der Kenntnisnahme von Kriminalitätsfällen im WWW reagiert. Bereits 1996 wurde eine Arbeitsgruppe des Telekommunikationsrates geschaffen, um illegalen Inhalten im Internet entgegenzuwirken. Die Convention Cyber-Crime (CCC) des Europarates beschäftigt sich zudem seit 1997 mit derselben Problematik. Dies macht deutlich, dass ein grenzüberschreitender Konsens von Nöten ist. (Kokta 2008, S. 11)

Heikel ist die Problematik bezüglich der Einschränkung der Bürgerrechte, denn eine Zensur ist in demokratischen Staaten nicht vorgesehen. Dennoch scheint ein Vorgehen dringend von Nöten zu sein, wenn man das doch erhebliche Ausmass der illegalen Inhalte im Netz betrachtet.  (Kokta 2008, S. 14ff.)

Es „kann nur eine Kombination und Anwendung vieler Massnahmen von der Ausbreitung von Internetkriminalität schützen. Dies bedeutet allerdings immer auch, die Freiheit der Benutzer im Internet einzuschränken, was zwangsläufig zu Widerständen führt“ (Kokta 2008, S. 16)

Geldwäscherei

Um Geldwäsche zu bekämpfen, gibt es in Deutschland Versuche anonymes Geld zu verbieten, was logisch klingt. Doch gilt Anonymität in modernen Informationsgesellschaften als wichtige Basis für Demokratie und für die freie Entfaltung der Bürger. Gleichzeitig gibt es klar definierte Grenzen und diese im Internet einzuhalten, stellt eine grosse Herausforderung dar.

Der Gesetzesentwurf zur Optimierung der Geldwäscheprävention, den die Bundesregierung 2011 verabschiedet hat, sieht vor, dass bei jeder Transaktion von elektronischem Geld alle Daten des Einzahlers gespeichert werden müssen. [Biermann 16.05.2013] Der Begriff Elektronisches Geld, auch E-Geld,  bezeichnet alle Möglichkeiten mit denen digital bezahlt werden kann. Gegen Bargeld können Karten gekauft werden, mit welchen man anonym übers Netz bezahlen kann. Was ursprünglich entwickelt wurde, um Kunden im Netz zu schützen – die Identität wird nicht preisgegeben – bietet Raum für kriminellen Missbrauch, für Geldwäsche. Die Financial Action Task Force (FATF), ein zwischenstaatliches Gremium, dessen Aufgabe es ist, Grundsätze zur Bekämpfung der Geldwäsche und der Terrorismusfinanzierung zu entwickeln und zu fördern, definiert den Begriff „Geldwäsche” wie folgt:

„Einschleusung illegal erwirtschafteter Gelder in den normalen Wirtschaftskreislauf zur Verschleierung ihrer illegalen Herkunft und Legitimierung der unrechtmäßig durch Straftaten erworbenen Erträge.“     [Zentrum für Steuerpolitik und Verwaltung 2009 16.05.2013]

Geldwäsche stellt eine ernsthafte Bedrohung für die Wirtschaft dar und wirkt sich auch negativ auf die Glaubwürdigkeit der Finanzinstitutionen aus. Das Bundeskriminalamt verzeichnete im 2011 11‘000 Verdachtsmeldungen auf Geldwäsche. [Capital.de 16.05.2013]

Im Internet funktioniert sie auf eine ähnliche Weise. Hier werden Konten gegen Provision für illegale Geldgeschäfte zur Verfügung gestellt. Auch sind immer mehr Menschen auf Spam-Mails, in welchen lukrative Jobs von zu Hause aus angeboten werden, um als Geldwäscher zu funktionieren, anfällig. Hier sollen die Angeschriebenen, Firmen dabei helfen, ausländische Kunden zu bezahlen, indem sie in ihrem Namen Bankkonten eröffnen und anonymen Zahlungen auf diese Konten zustimmen. [Focus 16.05.2013] Das Geld wird dann per Überweisung weitergeleitet, meistens in osteuropäische Länder. Die Helfer bekommen dann einen Anteil an den Transaktionen.

„Es handelt sich um klassische Geldwäsche, nur eben unter Einsatz des Internets als Werbemedium. Das Geld ist real, seine Herkunft illegal. Der Mittelsmann hilft Kriminellen und er ist derjenige, der das größte Risiko trägt. Auch das, ins Gefängnis zu kommen.“[Focus 16.05.2013]

Es kann festgestellt werden, dass die schlechte Wirtschaftslage Geldwäsche fördert; aus Angst den Job zu verlieren, sind immer mehr Menschen bereit höhere Risiken einzugehen. Gleichzeitig steigt die Zahl der Geldwäsche-Mails, sie werden immer professioneller, sodass kaum unterschieden werden kann, worum es sich dabei handelt. Auch lassen sich dank Internet riesige Geldmengen in Nullkommanichts rund um die Welt transferieren, was natürlich von grossem Vorteil für Verbrecherbanden ist. [Balzli 16.05.2013] Online-Banking bietet Geldwäschern neben örtlicher und zeitlicher Unabhängigkeit zwei weitere Vorteile, nämlich die Weitergabe des Kontenzugangsschlüssels an einen Dritten und die Anonymität durch fehlende Kundengespräche, womit auch kein Kundenprofil erstellt werden kann. Die Technik arbeitet immer mehr für Geldwäscher und es wird auch immer schwierig sie zu fassen.

„Tatsächlich führt die Unverbindlichkeit im Netz zu absurden Situationen. So loggte sich Unternehmensberater Daniel Thelesklaf, ­ bis vergangenen November Leiter der Schweizer Meldestelle für Geldwäscherei, ­ testweise bei einer Cyber-Bank mit Sitz in Malaysia ein. Obwohl er sein Konto unter dem Namen Mickey Mouse registrieren ließ, kamen keine Rückfragen.“[Balzli 16.05.2013]

Auch in der Schweiz werden neue Standards zur Bekämpfung von Geldwäsche erarbeitet. Unter dem Motto „Transparenz“ ist die FATF, zu deren Mitgliedern auch die Schweiz gehört, zunehmend daran interessiert, wer hinter Firmen, Konten und Transaktionen steht. [NZZ 16.05.2013] Wer sich genauer über die Massnahmen zur Bekämpfung der Geldwäsche in der Schweiz informieren will, hier der Link dazu.

Die Internetkriminalität entwickelt sich immer mehr zu einer ernsthaften Bedrohung für die Gesellschaft. Von Kinderpornographie und extremistischer Propaganda über Geldwäscherei, den Kreditkartenbetrug und das verbotene Glücksspiel bis hin zu unlauterer Werbung, Urheberrechtsverletzungen sowie dem illegalen Verkauf von Waffen, Betäubungsmitteln und Medikamenten; Delikte, für die das Internet missbraucht wird.

Gegenstand des nächsten Beitrags wird illegale Pornographie sein; wie sich Pornoringe organisieren und wie gegen diese vorgegangen wird.

Cyberkriminalität

Cybercrime – Der Internet-Kriminalität auf der Spur (Reportage) (messe live.tv)

Cyberkriminalität bezeichnet jene Kriminalität, welche im Cyberspace stattfindet. Die englische Wendung „Cyber“, welche vom Begriff „Kybernetik“ stammt, stellt den Bezug zum Einsatz von Informations- bzw. Computertechnologie her. Dies umfasst „singuläre informationstechnische, Daten verarbeitende Systeme“ (Brodowski et al. 2011, S. 11), als auch die Vernetzung von mehreren solchen Systemen, wie etwa dem Internet.
Die Entwicklung von Cyberkriminalität ist eng verknüpft mit der Entwicklung des Internets. Durch das Wachstum der Netzgemeinde seit Mitte der 1990er Jahre, stieg die Bedeutung von finanziellen und kommerziellen Interessen und infolgedessen, wurde auch der Cyberspace von Kriminalität nicht verschont. (Brodowski et al. 2011, S. 11)
Diesem liegen gewisse Prinzipien zu Grunde, welche das Ausführen krimineller Energien erleichtern. Das sind im Wesentlichen:

  • Automatisierbarkeit: Aktivitäten können im Cyberspace gezielt programmiert und ausgeführt werden. Durch einen begrenzten Aufwand, kann durch eine massenhafte Ausführung ein Vielfaches an Wirkung erzielt werden
  • Flüchtigkeit: Computerdaten sind regelmässig flüchtig, wodurch Spuren schneller verwischen als in der realen Welt
  • Räumliche Entgrenzung: Programmierte Handlungen können ortsunabhängig ausgeführt werden. Lediglich Ein- und Ausstiegspunkt einer Aktivität können verortet werden.
  • Kopierbarkeit: Beliebige Artefakte können perfekt kopiert werden. Unter anderem auch Authentifizierungsinformationen, womit Identität nicht mehr zweifelsfrei zugeordnet werden kann.
  • Angreifbarkeit: IT-Systeme haben Schwachstellen, welche ausgenutzt werden können.

(Brodowski et al. 2011, S.26)

Dies bedeutet, dass Cyberkriminalität in folgenden Formen auftreten kann:

  • Straftaten gegen die Vertraulichkeit, die Verfügbarkeit, sowie Unversehrtheit von Computerdaten, wie auch Systemen
  •  Fälschungen und Betrug
  • Straftaten, die sich auf Inhalte beziehen (z.B. Kinderpornografie)
  • Straftaten, die Schutzrechte wie das Urheberrecht verletzen
  • Rassistische und fremdenfeindliche Handlungen, welche mit dem Computer begangen werden

(Ernst 2012, S.4)

Und ganz konkrete Formen der Internetkriminalität sind:

1) Thematische Formen

a) Harte Pornografie

  • Kinderpornografie
  • Tierpornografie/ Gewalttätige Pornografie
  • Zugänglichkeit der Internet- Sexualität (kein Zugriffschutz für Minderjährige)

b) Urheberrechtsverletzungen
c) Gewaltdarstellungen, Extremismus, Rassismus
d) Social Engineering/ Social Hacking

2) Technische Formen

a) Ansteckende Malware

  • Viren
  • Würmer

b) Verborgene Malware

c) Profitable Malware (Gray-Ware)

  • Spam, Junk
  • Spyware
  • Logger

(Meier 2013, S. 5 ff.)

Trotz allem sind die rechtlichen Dimensionen des Internets nicht vollständig geklärt, da sowohl nationale, als auch internationale Regelwerke jenes nicht vollumfänglich beschreiben; Wobei anzumerken ist, dass eine rein nationale Regelung sich als grundsätzlich problematisch erweisen würde, da die Örtlichkeiten, von welchen die Kriminalität ausgeht, keine Begrenzung des Empfangs darstellen. (Beckedahl et al. 2012, S. 216 ff.) In der Schweiz existiert eine zentrale Meldestelle für Internet- Kriminalität (http://www.kobik.ch/), von welcher die Verdachtsfälle an die Kantone weitergeleitet und bearbeitet werden. (Meier 2013, S.16)

Die Möglichkeit der Verschleierung ist wohl eines der Hauptgründe dafür,  das die Internetkriminalität so verlockend ist. Dabei werden Anonymisierungsnetzwerke, wie „The Onion Routin“, kurz „Tor“ , genutzt. Damit kann man bis zu einem gewissen Grad anonym surfen und eventuelle Zensurmassnahmen umgehen.
(Locker 2013 [07.05.2013])

eintrag11

(Locker 2013, [9.05.2013])

Geschützt ist man bei Tor durch das sogenannte Zwiebel-Prinzip, welches die IP Adresse verhüllt. Der Datenverkehr wird zerlegt und einzeln verschlüsselt und an eine Reihe anderer Nutzer weitergeleitet. Jeder Nutzer von Tor fungiert dabei als „Router“, der Datenpakete weitergibt. Dieses Prinzip, in der Kombination mit der Mehrfachverschlüsselung, macht die Identität, sowie alle weitergereichten Datenpakete unkenntlich.

Der letzte Netzwerkknoten ist der „Exit Relay“. Dies sind Server, welche von anderen Tor-Nutzern explizit als solche eingerichtet wurden. Deren IP-Adresse ist ständig öffentlich sichtbar und wird von staatlichen Ermittlern gerne überwacht. Die Weiterleitung von Informationen über Tor ist in demokratischen Ländern straffrei.

Ebenso möglich ist es Tor für „Hidden Services“ zu nutzen oder zu betreiben. Diese Dienste sind nur über Tor erreichbar und von aussen kaum zu lokalisieren und somit auch nicht zensierbar.

Die angebotenen Inhalte befinden sich auf ständig wechselnden Adressen, weshalb der Einstieg oft über ein thematisch gegliedertes „Hidden Wiki“ erfolgt, wobei scheinbar etwa 70 Prozent der Suchenden nach illegalem pornografischen Material stöbern.

Die „Silk Road“ gilt dabei als der dunkelste Auswuchs des „Tor Hidden Services“. Dort können Drogen, Waffen, gefälschte Papiere und Anderes über sogenannte „Bitcoins“ erworben werden, welche dem Nutzer absolute Anonymität garantieren. 2012 wurden allein auf der Silk Road Waren im Wert von 1.9 Millionen US-Dollar verkauft.

Unbedacht sollte man den Tor-Server nicht nutzen, da nie bekannt ist, welche Anbieter hinter den Seiten und Angeboten stecken. Die Gefahr  in eine Falle von Kriminellen oder verdeckten Ermittlern zu treten, sollte man nicht unterschätzen. (Locker 2013, [9.05.2013])

Die nächsten Beiträge sollen nun auf konkrete kriminelle Energien im „Deep Web“ eingehen.

Suchmachinen des „Deep Web“

Wie bereits thematisiert, gelangen Suchmaschinen im Allgemeinen auf zwei Arten auf frei verfügbare Informationen: Erstens tragen die Webseiten-Besitzer ihre Seiten selbst bei Google ein oder zweitens durch Webcrawler, welche von einem Hyperlink zum nächsten springen und dabei alles indexieren. Um von Suchmaschinen beachtet zu werden, müssen Inhalte im Web bestimmte Kriterien erfüllen; wie in einem bestimmten Format erfasst worden sein oder statischen Textinhalt aufweisen. [Locker 09.05.2013] Flash, PDF-Dateien, Shockwave und ähnliche „exotische“ Formate werden von den gängigen Suchmaschinen ignoriert. Hier kommen die Deep-Web-Suchmaschinen ins Spiel, die alle jene Datenbestände zugänglich zu machen versuchen, welche diesen Kriterien nicht entsprechen. Um einige wichtige zu nennen, handelt es sich hierbei um die Suchmaschinen „Beaucoup“, „CompletePlanet“, „IncyWincy”,  „Infomine“, “Pipl” und “SearchSystems”. [Bekavac 09.05.2013].

Bei Beaucoup trifft man auf thematisch geordnete Quellen und auf Informationen, die in der Regel frei zugäglich sind. Eine Liste von mehr als 2500 Datenbanken und Verzeichnissen kommt hier zusammen; ausserdem bietet Beaucoup eine Super-Search-Funktion, eine Meta-Suche, die grössere Suchmaschinen umfasst. (Quelle: Sprint 2012)

CompletePlanet kann nach Datenbanken und Suchmaschinen zu einem bestimmten Thema abgefragt werden, nützliche Suchtipps und Anleitungen erleichtern die Suche zusätzlich. In Kategorien eingeteilt, sind hier 100‘000 Datenbanken und Suchmaschinen zu finden. Die Suche erfolgt hier auf Englisch und man hat Zugriff auf 4 Milliarden Dateien.(Quelle: Sprint 2012)
IncyWincy, welche zum Open Directories Project gehört, liefert als Ergebnis Verzeichniskategorien und Einträge zurück. Hier kann das Web in Form einer Standardsuche oder einer Meta-Suche durchsucht werden, wobei bei der letzteren sämtliche grosse Suchmaschinen durchforstet werden können. (Quelle: Sprint 2012)

Infomine, eine virtuelle Bibliothek mit einer Sammlung kommentierten und indizierten Links, ist eher für Studenten und Forschende auf Universitätslevel gedacht. Hier kann nach Journaltiteln gesucht werden. Den Schwerpunkt bilden hier wissenschaftliche Themen, die Suchsprache ist Englisch. (Quelle: Sprint 2012)

Pipl ist sowohl eine Personen- als auch eine Deep-Web-Suchmaschine. Wer mehr über Peronensuchmaschinen erfahren will, kann sich hier vertiefte Informationen holen. (Quelle: Sprint 2012)
Über SearchSystems hat man Zugriff auf Datenbanken mit amtlichen Unterlagen. Zusammengestellt werden hier Geschäftsinformationen, Eigentumsinformationen, Strafregister etc. Die Suche betrifft hauptsächlich die USA und Kanada; es kann aber auch weltweit gesucht werden. Zu jedem Link ist eine kurze Beschreibung zu finden. (Quelle: Sprint 2012)

Die vorgestellten Suchmaschinen ermöglichen einen Blick unter die Oberfläche des sichtbaren Webs zu werfen. Doch nicht alle Inhalte des Deep Webs sind für den normalen Nutzer von Bedeutung. (Dörner 2010)

„Der größte Teil der Daten, der nicht von Suchmaschinen indexiert wird, ist sicher nach wie vor der Bereich Echtzeit-Daten, beispielsweise bei Aufzeichnungen des Wetters, oder in datenintensiven Experimenten in der Physik. Es ist aber sehr fraglich ob diese Daten für den allgemeinen Webnutzer sinnvoll zu nutzen sind und in Suchmaschinen verfügbar sein müssen.“ (Mayr 2010)

Was Google nicht weiss oder das „Academic Deep Web“

Für Alltagsrecherchen, bei denen ein schnelles Ergebnis zählt, ist Google bestimmt keine schlechte Anlaufstelle. Bei wissenschaftlichen Fragestellungen hingegen stösst die Suchmaschine schnell an ihre Grenzen und dies trotz des wissenschaftlichen Ablegers „Google Scholar“.

Die Bereiche des „Academic Web“ umfassen:

  • Das „Surface Web“, womit alle Inhalte gemeint sind, welche von allgemeinen Suchmaschinen erschlossen sind.
  • Das „Deep Web“, welches alle Inhalte meint, welche nicht erschlossen sind oder nicht erschlossen werden können (v.a. die Inhalte von Datenbanken, die über das Web abfragbar sind).
  • Das „Academic Surface Web“, welches alle wissenschaftlichen Inhalte im Oberflächenweb bezeichnet (Websites von Unis, Forschungseinrichtungen, etc.).
  • Das „Academic Deep Web“, welches Inhalte aus wissenschaftlich relevanten Datenbanken, Bibliothekskatalogen, Literaturdatenbanken, Bücher, Forschungsdaten und Aufsätze umfasst.

(Lewandowski 2007, S. 6)

Um Zugang zum „Academic Deep Web“ zu erhalten gibt es verschiedene Ansätze. Diese umfassen kommerzielle Suchmaschinen, Google Scholar, Scirus, Bibliotheken und Datenbankanbieter, Open Access Repositories, sowie diverse wissenschaftliche Suchmaschinen.

Vor Probleme stellt einem dabei  vor allem Google Scholar, weil diese keine Qualitätskontrolle bietet (Lewandwoski 2007 S.9 – 14). Die Inhalte werden per Crawler aufgespürt und im Volltext erschlossen, wobei Feeds von Verlagen nicht berücksichtigt werden. Die vorgegebenen Schlagwörter werden nicht übernommen, es werden keine linguistischen Verfahren angewandt und die Liste der Kooperationspartner ist nicht öffentlich einsehbar. (Lewandowski 2007, S. 14)

Qualitätsinformationen“ finden sich in Systemen wie Lexis-Nexis, Dialog oder GENIOS, wobei allein Lexis-Nexis mehr Dokumente enthält als Google. Laut Schätzungen soll das „Deep Web“ rund 500 Mal so gross sein, wie das, was Google erfasst. Information Professionals sind demnach die Spezialisten für das „Deep Web“. (Stock 2004)

Google hingegen macht folgende Bemerkung, wobei über Reichweite, Aktualität und Abdeckung keine Informationen bereitgehalten werden:

„Google Scholar enables you to search specifically for scholarly literature,

including peer-reviewed papers, the ses, books, preprints, abstracts and tech –

nical reports from all broad areas of research. Use Google Scholar to find ar –

ticles from a wide variety of academic publishers, professional societies,

preprint repositories and universities, as well as scholarly articles available

across the web.“ (Mayr et al. 2006, S.42)

Anleitung von Google, wie Google Scholar zu nutzen ist. (YouTube [9.05.2013])

Positiv anzumerken ist, dass die Suche über Google Scholar sehr schnell und einfach zu vollziehen ist. Zudem ist die Recherche kostenfrei und es wird interdisziplinär in Volltextbeständen gesucht. Jedoch bietet es nicht die Vollständigkeit und Transparenz, um als alleinige Recherchebasis zu genügen. (Mayr et al. S. 258)

eintrag9

(Mayr et al, 2006, S. 252)

Man kann also getrost behaupten, dass Google sehr vieles nicht weiss. Das „Deep Web“ ist um ein vielfaches grösser, als das „Surface Web“. Zudem enthält es qualitativ hochwertigere Informationen, was gerade für die wissenschaftliche Arbeit von hoher Relevanz ist.

Google Scholar kann als Ergänzung zur Recherche in Fachdatenbanken etc. dienen, kann diese jedoch nicht ersetzten.

Die Rolle von Google

Die Google Incorporated, ein Unternehmen mit Hauptsitz in Mountain View, in Kalifornien. Gegründet wurde das Unternehmen am 4. September 1998 von Larry Page und Sergey Brin. Wahrscheinlich hatten sich diese beiden Männer zu dem Zeitpunkt nicht erträumen können, welcher enorme Erfolg auf sie wartet.

company-page_brin

Page und Brin(Quelle:Google)

            „Das Ziel von Google besteht darin, die Informationen der Welt zu organisieren und allgemein nutzbar und zugänglich zu machen.“ (Page/Brin 1998)

Mit diesem Leitsatz liess Google bereits deutlich spüren, dass es in Zukunft global tätig sein und einen gewissen Anspruch auf die Kontrolle des weltweiten Informations-/Datenaustauschs erheben wird. Was auch so kam: Mit Google-Brille wird es bald möglich sein, Menschen unbemerkt zu fotografieren und zu filmen. [Beuth 22.04.2013]

Brin mit Google-Glass

Brin mit Google-Glass(Quelle:REUTERS/Robert Galbraith)

Google Sky Map blendet Sternkarten ein, mit deren Hilfe man mit dem Handy über GPS-Sensoren erkennen kann, auf welche Sternbilder es gerade zeigt. Goggles, eine Software für  Objektidentifizierung, ist in der Lage Gegenstände automatisch zu erkennen, welche die Kamera des Handys gerade im Visier hat. Google News präsentiert immer die aktuellsten Nachrichten. Google Maps hilft Routen zu planen und Google Kalender organisiert die Termine. [Von Bredow et al. 22.04.2013] Diese Aufzählung könnte problemlos um weitere Gadgets und „Nice-to-haves“, die Google bietet, erweitert werden.

„Wünsche, Krankheiten, Sexleben: Die Google-Rechner sammeln alle Details unseres Lebens[…] Die einst so sympathisch-poppige Firma ist zur Supermacht geworden.“ [Von Bredow et al. 22.04.2013]

Die Tatsache, dass Google schon lange kein normaler Suchmaschinenbetreiber mehr, sondern ein Rundumdienstleister ist, der alles sammelt und speichert, ist eine besorgniserregende. Mit Nutzung eines jeden Google-Dienstes gibt der Benutzer immer etwas über sich preis. Bei jeder Recherche werden die IP-Adresse und die Browserversion gespeichert. Nach dem Willen von Google soll H.G. Wells Utopie des Weltgehirns keine Fiktion bleiben. (ARTE 2013)  Ging man früher noch ins Internet, das eine abgegrenzte Welt war, die man „Cyberspace“ oder „virtuellen Raum“ nannte, ist es heute allgegenwärtig; es durchdringt alle Lebensbereiche und nennt sich Google. Das Unternehmen hat sich eine Monopolstellung aufgebaut, in dem es sich auf eine gewisse Weise auch von seinen Idealen entfernt hat. [Von Bredow 22.04.2013] Wollte man anfänglich nichts mit Werbung zu tun haben, ist Google heute im Online-Werbemarkt der „global player“. (Abid 2012)

Produktpalette von Google

Produktpalette von Google(Quelle:Google)

Mit Plattitüden wie „Geld verdienen, ohne jemandem damit zu schaden“, „Gut ist nicht gut genug“ und „Demokratie im Internet funktioniert“, präsentiert sich Google auf seiner Homepage als seriöse Firma, die alles korrekt handhabt. Gräbt man aber tiefer, kommen Probleme des Datenschutzes, Verletzung der Urheberrechte und der Privatsphäre und Ignorieren des Rechts auf Anonymität zum Vorschein, um nur einige wichtige zu nennen.

Doch trotz aller genannten Aspekte lässt sich die Annahme, Google überblicke das ganze WWW, nicht so einfach bejahen. „Sehr viele User glauben, sie bekämen alle Seiten des Netzes, wenn sie die Suchmaschine von Google benutzen“ stellt der Web-Unternehmer Anand Rajaraman fest, Mitbegründer von Kosmix– einer der ersten Meta-Suchmaschinen. [Locker 22.04.2013] Und tatsächlich ist es so, dass vieles, worauf wir beim täglichen Surfen stossen, nur an der Oberfläche kratzt und von Google gar nicht erfasst und indexiert werden kann, weil es nur bedingt Zugang zu den Inhalten des Deep Webs hat. Google ist sich über die schlechten Suchergebnisse ebenfalls bewusst, sodass es zur Zeit an einem Crawler arbeitet, der „automatisch dynamische Suchanfragen von Nutzern simuliert“. [Locker 22.04.2013]

Doch was weiss jetzt Google alles? Was kann es nicht wissen, nicht indexieren? Der nächste Beitrag wird Antworten auf diese Fragen liefern und auf das Internet jenseits von Google und das „Academic Web“ mit seinen wissenschaftlichen Suchmaschinen eingehen.

Datenbanken im Web

„Selbstständige, auf Dauer und flexiblen und sicheren Gebrauch ausgelegte Datenorganisation, die sowohl eine Datenbasis als auch eine zugehörige Datenverwaltung (DBMS) umfasst. Eine Datenbank dient dazu, eine große Menge von Daten strukturiert zu speichern und zu verwalten.“ (Meckel [21.04.2013])

Ein Datenbanksystem besteht aus einer Speicherkomponente und einer Softwarekomponente. Die Speicherkomponente umfasst Daten, als auch Verfahren (Methoden). Die Softwarekomponente enthält eine Abfrage- und eine Manipulationssprache. Der Anwender wird dabei von einer Dialogkomponente geführt, welche ihm Hilfestellung bieten soll. (Meier 2010, S. 3)

Den grössten Teil des „Deep Webs“ stellen solche Datenbanken dar, sei es in Form von Webshops, Fachdatenbanken oder Bibliothekskatalogen. Bei einer Datenbankabfrage wird die Seite erst im Moment der Abfrage erzeugt, sprich dynamisch erstellt, und kann somit von einer Suchmaschine, welche beim Durchsuchen ja keine Abfragefelder ausfüllt, nicht indexiert werden. (http://wiki.infowiss.net/Information_Retrieval_im_Web [21.04.2013])

Dynamische HTML-Seiten werden aus Datenbeständen von Rechnern automatisch erzeugt. Mit deren Bereitstellung müssen gleichzeitig die Inhalte formuliert werden, wie dies beispielsweise in Webshops geschieht.

Als besondere Schwierigkeit beim Umgang mit dynamischen Websites gilt der Austausch von Informationen. Das HTTP-Protokoll ist eigentlich ein zustandsloses Protokoll, dem Interaktionen überhaupt nicht entsprechen, denn es wurde entwickelt um bereits formatierte Textdaten anzufordern. Es können dabei keine Informationen gespeichert werden, die mehr als den Datenaustausch betreffen. (Lonsing 1999, S.54) Somit können auch keine nutzerspezifischen Anfragen langfristig gespeichert werden (zumindest nicht ohne Login, was den Zugriff durch Suchmaschinenroboter wiederum verhindert).

Manche Datenbanken erlauben Suchmaschinen den Zugriff über die „Java Database Connectivity“ (JDBC). (dpunkt.Verlag 2002) Diese stellt Java-Anwendungen eine Möglichkeit zur Verfügung, um auf Daten in Tabellenform zuzugreifen.

Jdbc_architektur

(http://www.iwiki.de/wiki/index.php/JDBC [21.04.2013])

„Die zentralen Elemente der JDBC-API sind der JDBC-Treibermanager und die JDBC-Treiber. Um die Verbindung zu einer Datenquelle aufzubauen, übergibt die Anwendung eine JDBC-URL, den sogenannten Connection-String, an den Treibermanager. Anhand dieser URL entscheidet der Treibermanager, welcher der geladenen JDBC-Treiber für den Zugriff verwendet werden muss und öffnet eine Verbindung, die dann durch die Anwendung verwendet werden kann.“ (http://www.iwiki.de/wiki/index.php/JDBC [21.04.2013])

Fachdatenbanken sind in der Regel online zugänglich und lassen sich in Faktendatenbanken, Volltextdatenbanken und Referenzdatenbanken gliedern. (Griesbaum 2013, S. 4) Diese funktionieren alle nach dem gleichen Prinzip, was folgendes Modell aufzeigt:

hhh

(Griesbaum 2013, S. 6)

Fachdatenbanken werden zudem teilweise unter Hosts zusammengefasst, welche somit aus einer Vielzahl von Datenbanken bestehen. Crawler verstehen dabei weder die Struktur, noch die Sprache, welche benötigt wird, um Informationen aus diesen herauszulesen. Das Information Retrieval der Fachdatenbanken geschieht über ein kontrolliertes Vokabular und eine spezielle Abfragesprache (meist boolsches Retrieval), welches konventionelle Suchmaschinen nicht berücksichtigen. (Lewandowski 2005, S. 8-11)

Zusammenfassend lässt sich sagen, dass Datenbanken eine eigene Struktur besitzen und Seiteninhalte per Anfrage dynamisch generiert werden, was es roboterbasierten Suchverfahren verunmöglicht, die jeweilige Website zu indexieren. Fachdatenbanken werden zudem über eine Abfragesprache durchsucht, welche für einen Spider (noch) nicht umsetzbar ist.

Der folgende Blogbeitrag soll die Rolle von Google in der heutigen Zeit aufzeigen und in ein kritisches Licht rücken.

Das „Truly Invisible Web“

Die letzte Ausprägung des Deep Webs, um die es in diesem Beitrag geht, ist das „Truly Invisible Web“. „Wirklich unsichtbar“ deshalb, weil diese Inhalte von den Suchmaschinen aufgrund technischer Restriktonen weder erfasst noch indexiert werden können.

Welche Dokumente tatsächlich zum Truly Invisible Web gehören, ändert sich natürlich aufgrund der Weiterentwicklung von Suchmaschinen ständig. (Lewandowski 2005) Um die wichtigsten zu nennen, handelt es sich hierbei um dynamisch generierte Websites, Inhalte von Datenbanken, PDF-Dateien, Flash, Shockwave und komprimierte Dateien. (Sherman 2001) Warum dynamisch generierte Sites und PDF-, Flash- und Shockwavedateien weder erfasst noch indexiert werden können, hat zwei Gründe: einerseits verfügen diese über wenig bis gar keinen textuellen Kontext, was eine Kategorisierung oder einen Vergleich mit anderen Textdokumenten enorm erschwert. Andererseits „entscheiden“ sich Suchmachinen bewusst für eine „Nicht-Indexierung“ bestimmter Inhalte, d.h. es gäbe eine Möglichkeit die technischen Schranken zu überwinden, diese wird aber nicht wahrgenommen. Sherman führt dies vielmehr auf ein „Nicht-Wollen“ anstatt auf ein „Nicht-Können“ zurück:

„It’s typically lack of willingness, not an ability issue with file formats.” (Sherman 2001)

Bei Inhalten von relationalen Datenbanken handelt es sich dann tatsächlich um ein „Nicht-Können“. Diese sind wirklich unsichtbar, da Crawler nicht dafür programmiert werden, um die Algorithmen und Strukturen hinter relationalen Datenbanken zu entschlüsseln, diese zu verstehen. (Sherman 2001)

26_Vis-Invis-SuMa

Abschliessend kann festgehalten werden, dass gewisse Ähnlichkeiten zwischen den einzelnen Ausprägungen des Deep Webs bestehen; die Gründe aber, welche Inhalte warum nicht indexiert werden können, stark variieren können. Es sind zeitliche, formale oder technische Barrieren, die sich im Allgemeinen nur mit geeigneten Hilfsmitteln, den Suchmaschinen des Deep Webs, auf ein Minimum reduzieren lassen. Welche dies sind und was sie taugen, wird uns ebenfalls zum gegebenen Zeitpunkt beschäftigen.

Doch nun soll im nächsten Beitrag ein Blick auf die Datenbanken und ihren Zusammenhang mit dem Deep Web geworfen werden.

Das „Private Web“ und das „Proprietary Web“

Das „Private“ und das „Proprietary Web“ sind, neben dem „Opaque“ und dem „Truly invisible Web“, zwei Typen von unsichtbaren Web-Inhalten.

Das „Private Web“ meint Websites  mit Passwort- geschütztem Inhalt und solche,  die den „Robots Exclusion Standard“ benutzen. (http://wiki.infowiss.net/Invisible_Web [20.04.2013]) Die Inhalte Login-geschützter Sites sind für linktraversierende Spider (also roboterbasierte Indexierung) unzugänglich. (J. Griesbaum et al. 2009, S. 29)

Zudem verfügen Betreiber von Webseiten über mehrere Optionen das Verhalten der Spider zu beeinflussen, indem sie Metaangaben auf der Basis von HTML zielgerichtet einsetzen:

Private_Web

(Griesbaum et al. 2009, S.30)

Mit dem „Robots Exclusion Standard“ existiert die Möglichkeit, das Verhalten der Suchmaschinenroboter auf Domainebene anzugeben. Die Betreiber können darin festhalten, dass ihre Domain, oder Teile davon, nicht indexiert werden sollen. (Griesbaum et al. 2009, S.30)

Dies geschieht über das „Robots Exclusion Protocol“ (REP). Jenes umfasst Normen, die das Verhalten der Spider bei der Indizierung der Webseite festhalten. Webmaster bestimmen darin, wie die Crawler auf ihre Seite zugreifen dürfen.

Die robots.txt werden beim Auffinden einer Seite im Stammverzeichnis („root“) einer Domain zuerst ausgelesen. Sie sind quasi die „Pförtner der gesamten Website“ und legt fest, ob und wie diese von einem Spider besucht werden darf. Die grossen Suchmaschinen halten sich auch daran. (SEO Trainee [21.04.2013])

Der Begriff „Proprietary Web“ bezeichnet Inhalte, die eine vorhergehende Registrierung verlangen oder kostenpflichtige Inhalte anbieten. (http://wiki.infowiss.net/Invisible_Web [20.04.2013]) Als Beispiele hierfür können kostenpflichtige Datenbankzugriffe genannt werden.

eintrag5

(Lewandowski [20.04.2013])

Im folgenden Blogeintrag wird auf einen weiteren Typ von unsichtbaren Webinhalten eingegangen.

Das „Opaque Web“

Nach Sherman und Price wird das Deep Web in Opaque Web, Private Web, Proprietary Web und Truly Invisible Web unterteilt. Nachfolgend sollen diese Bereiche erläutert und der Bezug zum Deep Web hergestellt werden.

invisible_web

Während man zu den Inhalten einzelner Ausprägungen des Deep Webs mit geeigneten Suchmaschinen Zugang finden kann, sind die Dokumente des Opaque Web oft nur schwer auffindbar. Unter Opaque Web versteht man den Teil des Deep Webs, der von den Suchmaschinen zwar technisch erfasst werden, aufgrund bestimmter Restriktionen aber nicht indexiert werden kann. (Sherman 2003)  Hierbei handelt es sich um Webseiten, die nur eine geringe Crawling-Tiefe besitzen, also nur bis zu einer bestimmten Ebene erfasst werden. Ebenso von Bedeutung ist die Crawl-Frequenz, sprich die Aktualität der Webseiten.

Eine Website zu „crawlen“ und ihre Inhalte zu indexieren, ist eine ressourcenaufwändige Operation. Dabei entstehen für Suchmaschinen enorme Kosten. Wo früher nur ein paar wenige Seiten zur Veranschaulichung erfasst wurden, geht der Trend heute in Richtung „je tiefer desto besser“, d.h die Crawl- und die Indexierungstiefe gewinnen immer mehr an Bedeutung. (Sherman 2003) Denn, umfangreiche und somit relevante Dokumente können in tieferen Hierarchieebenen liegen und falls die Suchmaschine über eine beschränkte Erschliessungstiefe verfügt, können diese  Dokumente nicht gefunden werden. (Ott 2008)

            „Seit dem Erscheinen des Sherman-Price-Buchs hat sich die Situation insbesondere in Bezug auf die Tiefe des Crawlings wesentlich verbessert. Die Indizes der Suchmaschinen sind rapide gewachsen, Websites werden von den Suchmaschinen nach Möglichkeit vollständig erfasst; Ausnahmen sind weiterhin besonders umfangreiche Sites.“ (Lewandowski 2005)

Das Web ist einem ständigen dynamischen Wandel unterzogen; täglich kommen neue Inhalte dazu, es werden aber auch Inhalte entfernt. Selbst die leistungsfähigsten Crawler können an einem Tag nur ca. 10 Millionen Seiten aufspüren, was nur einen Bruchteil davon ausmacht, was das Web sonst noch so zu beherbergen hat. Es reicht auch nicht aus, wenn Crawler eine Website einmal aufspüren und automatisch davon ausgehen, dass sie weiterhin existiert. Sinnvoll oder wünschenswert wäre es, dass Suchmaschinen eine Website regelmässig aufspüren; nicht nur um ihrer Existenz sicher zu sein, sondern auch, um aktuellste Veränderungen und neueste Versionen speichern zu können.  Dies kann wie bereits erwähnt nur mit einer ausreichenden und regelmässigen Crawl-Frequenz gewährleistet werden. Diesbezüglich stellt Lewandowski fest:

            „…weiterhin wurde auch die Crawl-Frequenz verbessert; die meisten Suchmaschinen verwenden neben dem Standard-Index inzwischen auch einen „Fresh-Index“, der Dokumente von Websites enthält, bei denen festgestellt wurde, dass sie sich schnell verändern bzw. oft neue Seiten hinzugefügt werden. Auch hier ist allerdings keine Garantie der Vollständigkeit gegeben; für die Suche nach aktuellen Meldungen (Nachrichtenmeldungen, Einträge aus Weblogs) sollten weiterhin spezielle Suchmaschinen bzw. spezielle Indizes der allgemeinen Suchmaschinen abgefragt werden.“ (Lewandowski 2005)

Weitere Beschränkungen bestehen in Bezug auf die Maximalzahl der angezeigten Ergebnisse (es wird zwar eine Trefferzahl, der über die Suchmaschinen gefundenen Dokumente angegeben, beschränkt sich aber in der Regel auf etwa 1.000 Dokumente) und das Problem der „disconnected pages“. Da lassen sich bisher aber keine Verbesserungen feststellen. (Lewandowski 2005)

Das Opaque Web ist zwar mühsam zu erforschen, dessen Erschliessung ist aber weit fortgeschritten. Mit Ausnahme der „disconnected pages“ lassen sich in diesem Bereich des Deep Webs am wenigsten Probleme aufzeigen. Komplizierter wirds mit den weiteren Inhalten des Deep Webs, worum es in den nächsten beiden Beiträgen gehen wird.

Was ist das „Deep Web“?

Schätzungen besagen, dass nur rund 30-40 Prozent des World Wide Webs von Suchmaschinen erfasst werden. Die anderen 60-70 Prozent gehören zum Inhalt des „Deep Web“. Der Begriff „Deep Web“ umfasst all jene Wissensbestände, welche nicht von Roboterprogrammen erfasst werden, sei es aufgrund von Zugangsbeschränkungen oder durch technische Restriktionen. Es besteht im Gegensatz zum „Surface Web“. (Griesbaum, Bekavac 2004, S.40)

Für das „Deep Web“ werden noch zahlreiche andere Begriffe wie „Hidden Web“, „Invisible Web“ oder „Dark Web“ verwendet. In diesem Blog soll der Begriff „Deep Web“ verwendet werden, da dieser in der Forschung am geläufigsten ist.

Inhalte des „Deep Webs“ sind folgende:

  • Inhalte, die in öffentlichen als auch privaten Datenbanken gespeichert sind – z.B. sbb.ch oder tel.search.ch – Bibliothekskataloge, Digitalisiertes, Videos, etc. Hier kommt man nur mit speziellen Suchmaschinen weiter.
  • Real-time Inhalte: durch die immense Flut an Informationen und sich rasch ändernde Informationen, können Suchmaschinen nicht in real-time funktionieren. (Sherman, Price 2001)
  • Webseiten und Daten, die – Passwort- oder Login geschützt sind. Dazu gehören auch dynamische Datenbanken sozialer Netzwerke wie Facebook, Twitter und Co., Online-Banking-Daten, Pressearchive, Intranets, Bilddatenbanken etc.
  • Dynamisch generierte Webseiten, die nur vorübergehend oder im Kontext einer Nutzeranfrage entstehen. Ein Beispiel dafür ist die Google Ergebnisliste nach einer bestimmten Begriffssuche.
  • Alle Seiten, die weder statische HTML-Inhalte noch Text beinhalten, z.T. auch Grafiken oder Videos sowie beschädigte Dateien.
  • So genannte „orphan pages“: Webseiten, die nirgends verlinkt sind.
  • Webseiten und Datenbanken, die nicht gefunden werden sollen und die Suchmaschinen deshalb bewusst aussperren.

(Locker 2013)

Bei einem Grossteil handelt es sich jedoch um „anbieterspezifische Datenbanken, die Webseiten erst auf Grund konkreter Nutzeraktionen dynamisch generieren“. (Griesbaum, Bekavac 2004, S.40). Ein Beispiel hierfür sind Web-Shops, die entsprechende Angebotsseiten erst durch die konkrete Eingabe von Marken oder Produktnamen generieren. (Griesbaum, Bekavac 2004, S.40)

Sherman und Price (2001) definieren das „Deep Web“ wie folgt:

„Text pages, files, or other often high- quality authoritative information available via the World Wide Web that general- purpose search engines cannot, due to technical limitations, or will not due to deliberate choice, add to their indices of Web pages.“

Mit den qualitativ hochwertigen Informationen sprechen diese wohl auf das „Informationsangebot von professionellen Informationsanbietern“ an, welche durch Suchmaschinen kaum erschlossen sind. (Griesbaum, Bekavac 2004, S.46)

Es wird deutlich, dass das „Deep Web“ keine überwiegend dunkle Angelegenheit ist, im Gegenteil; Es handelt sich dabei vorwiegend um „login- geschützte“ Bereiche, dynamisch generierte Websites und unverlinkte Seiten.

grafik (Neher 2010)

Die einzelnen Ausprägungsformen des „Deep Webs“ sollen in den folgenden Beiträgen erläutert werden.

Funktionsweise von Suchmaschinen

Das World  Wide Web: das universelle Netzwerk von Computern, das täglich eine grosse Anzahl von neuen Inhalten verarbeiten muss.

Ohne die geeigneten Hilfsmittel wäre es nicht möglich, diese Datenflut zu bewältigen und relevante Inhalte herauszufiltern. Den Suchmaschinen kommt hier eine besondere Rolle zu, mit deren Hilfe möglichst schnell, möglichst präzise Resultate erzielt werden sollen, die auch von guter Qualität sind. In diesem Zusammenhang ist Google in aller Munde, hat es geschafft zur meistbenutzten Suchmaschine weltweit zu werden und geniesst dadurch ganz klar eine Monopolstellung. Doch wie funktionieren eigentlich Google&Co.? In diesem Beitrag soll ein Überblick über die Funktionsweise von Suchmaschinen geschafft werden, wobei der Fokus auf roboterbasierte Verfahren gerichtet wird.

Suchdienste des WWW können nach intellektuell/manuell erstellten Inhalten auf der einen Seite und nach roboterbasierten/automatischen Verfahren auf der anderen Seite unterschieden werden. (Bekavac 2012, S.3) Im Vergleich zu lokaler, katalogbasierter und Meta-Suche, sind roboterbasierte Suchverfahren die dominante Art von Suchdiensten im Web. Die Systemarchitektur einer roboterbasierten Suchmaschine besteht aus den folgenden drei Komponenten: einem Web-Robot-System zur Erfassung von Daten, einem Information Retrieval-System zur Aufbereitung und Bewertung der erfassten Daten und einem Query Processor zur Ergebnisdarstellung. (Bekavac 2012, S.15) Diese Komponenten werden in der folgenden Abbildung dargestellt:

Websuchmaschine2

Websuchmaschine (Quelle:Sprint)

Die Dokumentenbeschaffung findet über gewisse Programme statt, weshalb die Rede von roboterbasierten Verfahren ist. Spider, Crawler und Roboter heissen die verschiedenen Programme, über die man Zugang zu den gewünschten Dokumenten weltweit findet. Diese suchen das Web, ausgehend von einer URL-Liste, welche von den Betreibern der Suchmaschine erstellt wird, Adresse für Adresse nach Webseiten ab; dabei laufen mehrere solcher Roboter parallel. (Bekavac 2012) Durchs Durchlaufen von Hyperlinks, Herausfiltern von HTML-Seiten und textbasierter Dateiformate und automatischer Weiterverfolgung von Hypertextstrukturen, gelangen Roboter zu Inhalten, die in einem Register gespeichert und laufend aktualisiert werden.

       „Gerade im Vergleich zu manuell erstellten Dokumentsammlungen erreichen die automatischen Verfahren der Suchmaschinen eine hohe Abdeckung bezüglich der im Web vorhandenen Inhalte.“ (Bekavac 2012, S. 16)

Doch können Suchmaschinen nicht alle Inhalte vollständig auffinden. Ein vollständiges Aufspüren wäre möglich, wenn alle Webinhalte miteinander verbunden und frei zugänglich wären. Dies ist aber nicht immer der Fall. Login-geschützte Seiten, dynamisch generierte Inhalte, nichtverlinkte Dokumente und mit Robot-Exclusion-Standard geschützte Webseiten sind für Spider, Crawler&co.  nicht zugänglich. (Bekavac 2012, S.16)  Letztere dienen dazu, Inhalte im sichtbaren Bereich von Webseiten von der Indexierung auszuschliessen. Entsprechende Anweisungen werden mit „Robots.txt“ gekennzeichnet.

Den Kern der Indexierung bilden Dokumente, die von Robotern aufgespürt und erfasst werden. Bei der Erschliessung werden exakte Schreibweisen unverändert übernommen, Gross- und Kleinschreibung sowie Umlaute werden normalisiert. Es wird alles  erfasst, d.h. neben Stichwörtern auch HTML-Tags, ausgehende Links, Meta-Tags, formale Elemente, eingebettete Elemente sowie Formatelemente  wie z.B Schriftgrösse und Farbe. (Bekavac 2012, S. 20) Diese aus den Webseiteninhalten entnommenen Inhalte werden mit weiteren Faktoren angereichert und bilden die Grundlage für linkspezifische Rankingverfahren. Die Rede ist von On-Page-Faktoren, On-Site-Faktoren, Link-Faktoren und Eigenschaften und  Verhalten von Benutzern. (Bekavac 2012, S. 21) Da die genannten Punkte eine geringe Relevanz in Bezug auf den Gegenstand dieses Beitrags aufweisen, werden sie nicht weiter erläutert.

Zusammenfassend kann festgestellt  werden, dass mit algorithmenbasierten Suchmaschinen  man zwar eine hohe Abdeckung erreicht, gleichzeitig aber das Deep oder Invisible Web von erheblicher Bedeutung ist, auf dessen Inhalte wegen anbietergenerierten Zugangsbeschränkungen oder wegen technischen Gründen nicht zugegriffen werden kann. Über die tatsächliche Grösse des Deep Web besteht kein Konsens; Schätzungen zufolge, soll es um 400 bis 550 mal grösser sein als das Visible Web, mit ca. mindestens 550 Milliarden Dokumenten. (Bekavac 2012, S. 16)

Doch was genau ist mit Deep/Invisible Web gemeint?  Dessen Begriffsdiskussion und welche Definiton für diesen Blog gelten soll, wird Gegenstand des nächsten Beitrags sein.

Das Internet und das World Wide Web – technische Grundlagen

Um zu verstehen, worum es sich beim „Deep Web“ handelt und welche technischen Voraussetzungen dieses bedingt, müssen wir uns mit dem Aufbau des Internets und dem World Wide Web befassen. Dies soll vorerst nur oberflächlich geschehen und je nach Bedarf durch weitere Vertiefung ergänzt werden.

Sobald zwei elektronische Geräte miteinander verbunden sind und kommunizieren, bilden sie ein Netzwerk. Das Internet ist ein globales System von untereinander verbundenen Computernetzwerken, wobei jedes Gerät in der Lage wäre mit dem anderen zu kommunizieren. (Digitale Gesellschaft e.V. 2013, S. 4) Es besteht aus unzähligen einzelnen Netzen, welche untereinander verbunden sind, weshalb das Internet auch als das „Netz der Netze“ bezeichnet wird. (Wenk 2013, S. 1)

Die Grundlage zur Gewährleistung dieser Kommunikation bildet das Internet Protocol (IP), welches die Basis für alle anderen Kommunikationssysteme im Internet bildet. Für bestimmte Formen der Kommunikation existieren jeweils andere Protokolle, wie beispielsweise für das Versenden von Mails das „Simple Mail Transfer Protocol“ (SMTP). Solange Protokolle auf dem Internet Protocol aufgebaut sind, lassen sich beliebige neue Protokolle definieren.

Die Router, welche den Datenstrom transportieren, müssen nicht erkennen, welche Art von Daten sie transportieren, solange diese das IP benutzen. (Digitale Gesellschaft e.V. 2013, S. 4) ([Kommentar gelöscht: 10.05.2013])

„Im Kern liefert das Internet nur eine einzige hochflexible Dienstleistung: Daten von einem Gerät auf ein anderes zu transportieren, egal um welche Geräte es sich handelt, wo sie stehen, wie sie mit dem Internet verbunden sind und egal welche Daten versendet werden.“

(Digitale Gesellschaft e.V. 2013, S. 5)

Die Daten werden in Paketen übermittelt, deren Grösse variabel ist. Sie tragen eine Absender- und eine Empfängeradresse (IP-Adresse), anhand derer sie ans Ziel gelangen. (Wenk 2013, S. 7). Um die Adressierung benutzerfreundlich zu gestalten existiert das „Domain Name System“ (DNS), welches im Hintergrund die IP-Adresse des Servers gespeichert hat. (Digitale Gesellschaft e.V. 2013, S. 8)

Internet1

Das World Wide Web baut auf dem HTTP (Hyper Text Transfer Protocol) auf, welches wiederum auf dem IP basiert. Dieses ermöglicht das Herunterladen von Hypertext-Dokumenten (Webseiten). Webseiten basieren auf der Formatierungssprache HTML (Hyper Text Markup Language), welche sich auf Layout und Inhalt einer Seite auswirkt. Veröffentlicht werden Webseiten auf Webservern, welche immer unter der gleichen IP-Adresse zu erreichen sind und eine Vielzahl von Seiten speichern (hosten). (Digitale Gesellschaft e.V. 2013, S. 9-10) ([Kommentar gelöscht: 10.05.2013])

HTTPS verschlüsselt diese Verbindungen nun so, dass theoretisch nur der Computer des Nutzers und der Webserver die übermittelten Informationen lesen können, wobei der Autor einer Webseite eine vertrauenswürdige Stelle beauftragt, welche ihm ein persönliches digital unterzeichnetes Zertifikat ausstellt, das dessen Identität bestätigt. (Digitale Gesellschaft e.V. 2013, S.10)

Des Weiteren existieren sogenannte Peer-to-Peer-Netzwerke, bestehend aus Computern (Webservern oder Heim-PCs), welche zur gleichen Zeit an einer bestimmten Form der Kommunikation teilnehmen. Dabei findet keine Unterscheidung zwischen Client und Server statt. Im Internet haben Peer-to-Peer Anwendungen auch eigene Protokolle, welche wiederum auf dem IP basieren. Die Vorteile ergeben sich daraus, dass das Netz nicht zusammenbrechen kann, da keine Zentralinstanz vorhanden ist. Zudem können diese Netze sehr schnell wachsen, da auch jeder neue Teilnehmer eigene Ressourcen (Bandbreite, Speicherplatz) mitbringt. Beim Fileharing über Peers wird die IP-Adresse der Beteiligten nicht automatisch bekannt und auch welche Dateien (oder Teile davon), welcher Peer hat ist nicht eindeutig. (Digitale Gesellschaft e.V. 2013, S. 17 – 18) ([Kommentar gelöscht: 10.05.2013])

Im nächsten Blogeintrag wird erläutert, wie Suchmaschinen funktionieren um damit die Grundlage zur Begriffsdefinition zu schaffen.