Google Scholar

Logo von Google Scholar

Google Scholar ist eine Suchmaschine des Unternehmens Google LLC und dient der allgemeinen Literaturrecherche wissenschaftlicher Dokumente. Dazu zählen sowohl frei zugängliche Dokumente als auch kostenpflichtige Angebote. Zumeist werden als Treffer Volltexte oder zumindest bibliographische Nachweise angezeigt. Google Scholar analysiert und extrahiert die in den Volltexten enthaltenen Zitate und erstellt daraus eine Zitationsanalyse. Darüber hinaus können die bibliographischen Angaben dieser Zitate über den Suchdienst recherchiert werden. Im Januar 2018 wurde der Umfang von Google Scholar auf ca. 389 Millionen Dokumente geschätzt. Damit ist Google Scholar derzeit die weltweit größte akademische Suchmaschine.[1] Die leichte Bedienbarkeit und die Indexierung von Datenbankeinträgen, die normalerweise nicht für Webcrawler zugänglich sind, werden als Vorteile von Google Scholar betont. Problematisch ist jedoch, dass keine qualitative Auswahl getroffen wird und Google Scholar dadurch auch Dokumente nachweist, die wissenschaftlichen Standards nicht genügen.[2][3]

Vorgänger

Google Scholar basiert auf den Erfahrungen, die Google mit verschiedenen anderen Diensten in den vorhergehenden Jahren sammeln konnte, allen voran natürlich aus der Google Websuche. Das Layout und die einfache Bedienbarkeit sowie die Indexierung sämtlicher Ressourcen in einem Gesamtindex wurden auf die wissenschaftliche Suchmaschine übertragen. Mit einigen Anpassungen konnte auch der Pagerank für die Bewertung und Sortierung der Quellen übernommen werden.

Als Vorgänger von Google Scholar gilt das Projekt Crossref. Darin wurden neben Open-Access-Dokumenten und Dokumenten aus dem Self-Archiving-Bereich die Volltext-Bestände zahlreicher Fachverlage und -gesellschaften indexiert. Über die bekannte einfache Google-Suchoberfläche wurden alle diese Materialien recherchierbar.

Das Projektziel war es, einen Teil des Deep Web, nämlich die nur durch Registrierung und Anmeldung zugänglichen kostenpflichtigen Publikationen der Verlage und Fachgesellschaften, für die Suchmaschine zugänglich zu machen. Als Grundlage dafür dient eine gemeinsame Vereinbarung zwischen Google und den beteiligten Verlagen.[4]

Funktionsumfang

Am 18. November 2004 startete Google die englischsprachige Beta-Version von Google Scholar, seit dem 21. April 2006 ist der Suchdienst auch in deutscher Sprache verfügbar.

Der Schwerpunkt der nachgewiesenen Literatur liegt auf den Fachzeitschriften.[5] Jedoch weist Google Scholar auch andere wissenschaftliche Dokumente im Volltext oder nur die entsprechenden bibliographischen Daten nach. Dazu zählen Inhalte aus dem freien Web bspw. von privaten und institutionellen Websites sowie Open-Access-Publikationen und Dokumente aus dem Self-Archiving-Bereich. Darüber hinaus sind auch kostenpflichtige Angebote von Verlagen und Fachgesellschaften nachgewiesen.[6] Damit erschließt Google Scholar, wie auch sein Vorgängerprojekt CrossRef, einen Teil des Deep Web.

Das Besondere an Google Scholar ist die Volltextanalyse und -indexierung. In wissenschaftlichen Datenbanken kann ausschließlich in den bibliographischen Angaben sowie den Abstracts und Schlagworten gesucht werden. Die Auswahl und Bewertung der Dokumente erfolgt im Gegensatz zu den Fachdatenbanken nicht intellektuell, sondern auf Basis von Algorithmen, die die Wissenschaftlichkeit bewerten und das Ranking der Trefferliste bestimmen.

Die Ergebnisse einer Literatursuche werden dem Nutzer nach Relevanz sortiert angezeigt. Unterschieden wird dabei zwischen kostenpflichtigen Verlagsangeboten und kostenfreien Nachweisen, die jedoch nicht immer direkt zum Volltext führen, sowie in Open-Access-Publikationen. Der Mehrwert der wissenschaftlichen Suchmaschine liegt zum einen im Ranking von Dokumenten sowie in der Extraktion und Analyse der Zitationen, des Weiteren auch in der Möglichkeit der Weiterleitung von Suchanfragen an den WorldCat und die Nutzung des „Bibliothekslinks“ für die Nutzer von Bibliotheken, die mit Google Scholar zusammenarbeiten.

Zielgruppe

Laut der Homepage richtet sich Google Scholar mit seinem Angebot an Akademiker.[7] Somit werden Wissenschaftler, Forscher, Studierende, Hochschuldozierende, wissenschaftliche Mitarbeiter und Doktoranden sowie Schüler zur Zielgruppe gezählt.

Suchraum

Google Scholar versteht sich als ein Suchdienst für die allgemeine Suche nach wissenschaftlicher Literatur. Dazu gehören vor allem Zeitschriftenartikel, Bücher und technische Berichte. Aber auch Seminararbeiten und sämtliche Arten von studentischen Abschlussarbeiten, Power-Point-Präsentationen, Abstracts, Preprints und Konferenzbeiträge. Diese Dokumente sind teilweise frei im Web verfügbar, teilweise stammen sie von kommerziellen Anbietern. Deutlich erweitert wird das Volltextangebot durch die Integration der Daten aus Google Books.[8]

Die kommerziellen Lieferanten der Daten sind wissenschaftliche Verlage, Fachgesellschaften und Berufsverbände, mit denen Google eine Vereinbarung getroffen hat. Diese erlaubt es den Webcrawlern deren Volltextdokumente zu indexieren. Dabei werden lediglich akademische Artikel, nicht jedoch Lehrbücher oder Monographien berücksichtigt. Es wird deutlich, dass Google die Definition der „Wissenschaftlichkeit“ sehr weit fasst. Neben Fachartikeln, die nach einem Peer Review-Verfahren in Zeitschriften publiziert werden, sind auch Vortragsfolien, studentische Arbeiten von Hochschulschriftenservern und Dokumente, die Privatpersonen auf ihre Website stellen, nachgewiesen.[7]

Funktionsweise

Abdeckung

Wie bereits dargelegt, umfasst der Suchraum dieser Suchmaschine wissenschaftliche Dokumente von unterschiedlichen Qualitätsstufen. Die Dokumente befinden sich zudem teilweise in verschiedenen Bearbeitungsstadien. So werden nicht nur qualitätsgeprüfte Fachartikel aus wissenschaftlichen Zeitschriften nachgewiesen, sondern auch Publikationen, die kein oder ein gefälschtes Peer-Review-Verfahren durchlaufen haben, sowie Preprints oder Vortragsunterlagen. Die unterschiedlichen Versionen eines Dokuments werden von Google Scholar gruppiert. Als Treffer wird die Verlagspublikation angezeigt und alle anderen Versionen werden unterhalb dieses Treffers unter dem Link „alle … Treffer“ zusammengefasst. Die Liste sämtlicher indexierter Versionen kann darüber aufgerufen werden.[9]

Google Scholar analysiert und indexiert Dokumente in verschiedenen Formaten. Dazu gehören die Formate HTML, PDF und PostScript; auch komprimierte Dateien können bearbeitet werden. Der Umfang der Dokumente, die als Volltext zur Verfügung gestellt werden, ist durch die Integration der Daten aus Google Books deutlich ausgedehnt worden.[10] Jedoch sind die Themen, die eine geringe Popularität besitzen, nur unzureichend in Google Scholar mit Nachweisen oder Volltexten repräsentiert.[8]

Indizierung

Google Scholar extrahiert aus den gefundenen Dokumenten die Metadaten wie z. B. Titel, Autor und Erscheinungsjahr. Dies erfolgt automatisiert, indem die Dokumente vom Webcrawler durchsucht werden und mit Hilfe eines Algorithmus die einzelnen Textsegmente anhand des Dokumentenlayouts unterschieden werden. Die Software erkennt sie als Zitation, Autorennamen, Erscheinungsjahr o. Ä. Diese Extraktion ist schwierig, da sich die Dokumente an keinen oder an unterschiedlichen Standards orientieren und in verschiedenen Formaten vorliegen. Dementsprechend ist das Erkennen der Metadaten teilweise fehlerhaft. Dies hat negative Folgen für die Auffindbarkeit der Dokumente sowie für alle Funktionen, die Google Scholar auf Basis dieser Daten anbietet. Dies betrifft vor allem die Publikationsserver von Institutionen, deren Metadaten nicht dem von Google geforderten Schema entsprechen.[11]

Die extrahierten Daten werden für die Zitationsergebnisse, für den Rankingfaktor des Dokumentes als auch für die Funktion „zitiert durch“ verwendet. Darüber hinaus werden sie bei der erweiterten spezifischen Suche und für den Export in Literaturverwaltungsprogramme benötigt.[10]

Ranking

Das Rankingverfahren nutzt die etablierten Verfahren von Google Websuche. Da die bekannte Google-Technik im Hintergrund von Google Scholar angewandt wird, bietet dieser Suchdienst die gleiche Rechercheoberfläche und die gleiche Bearbeitungsgeschwindigkeit. Jedoch weisen wissenschaftliche Dokumente und deren Inhalte besondere Eigenschaften auf, die eine Anpassung der Prinzipien und Algorithmen des Pagerank notwendig machen.[4]

Die Technologie berücksichtigt den vollständigen Text des Dokuments, die Quelle, in welcher der Text veröffentlicht wurde, und vor allem auch, wie oft er in anderen Artikeln zitiert wird, um nur einige der berücksichtigten Faktoren zu nennen.[7] Da Google über das Rankingverfahren kaum Informationen bekannt gibt, können über weitere Popularitätswerte und über die Gewichtung nur Vermutungen angestellt werden. Bekannt ist lediglich, dass Literatur, die häufig zitiert wird, in der Trefferliste weit oben angezeigt wird.[5] Da somit aktuelle Dokumente einen niedrigeren Rankingfaktor erhalten als ältere Dokumente, wurde die Gewichtung des Publikationsdatums zugunsten von Dokumenten aktuelleren Datums verändert.

Zitationsextraktion

Für die automatische Extraktion und Analyse von Zitationen greift Google auf seine Erfahrungen mit der Linkanalyse und auf die Erkenntnisse der Suchmaschine CiteSeer zurück. Durch das autonomous citation indexing werden Literaturangaben aus den Volltexten entnommen und nachgewiesen. Somit enthält Google Scholar auch Werke, die über seinen Abdeckungsgrad hinausreichen. Dabei handelt es sich hauptsächlich um Bücher.[4]

Teilweise wird Google Scholar als Konkurrenz zu den kostenintensiven Zitationsdatenbanken Science Citation Index (SCI) und Scopus gesehen, da es eine kostenlose Zitationsanalyse bietet und mehr Open-Access-Zeitschriften berücksichtigt als diese Datenbanken. Somit weist Google Scholar einige Vorteile gegenüber den kostenpflichtigen Angeboten auf.

Wie die automatische Extraktion der Metadaten ist auch das maschinelle Erkennen von Zitaten fehleranfällig. So kommt es teilweise zu redundanten, unvollständigen oder fehlerhaften Einträgen im Index von Google Scholar.[5]

Google Scholar bietet mit den Funktionen „ähnliche Artikel“ und „zitiert durch“ die Möglichkeit, die Recherche auszudehnen. Mit dem Begriff „Zitation“ werden Dokumente gekennzeichnet, auf die in anderen wissenschaftlichen Ressourcen verwiesen wird, die jedoch nicht in Google Scholar im Volltext enthalten sind. Dem Nutzer werden lediglich die ermittelten bibliographischen Daten präsentiert. Die Anfrage kann jedoch über den Link „Bibliothekssuche“ an den WorldCat weitergeleitet werden. Über diesen Katalog wird die nächstgelegene Bibliothek ermittelt, die diesen Titel im Bestand hat.[12] Über den Link „ähnliche Artikel“ werden als thematisch verwandt erkannte Dokumente aufgelistet. Diese Funktion beruht ebenfalls auf der Volltextindexierung und der anschließenden automatischen Extraktion und Analyse der Daten.

Systemarchitektur

Hardware und Infrastruktur

Google nutzt die existierende Infrastruktur seiner Rechenzentren, um den Dienst Google Scholar anzubieten. Weltweit betreibt Google Rechenzentren, in denen der riesige Datenbestand gespeichert ist und die Suchanfragen bearbeitet werden. Diese verteilte Datenhaltung wird durch die Datenbanksoftware Bigtable verwaltet.

Webcrawler

Die Webcrawler gelangen über Links zu frei verfügbaren Webseiten, die sie nach wissenschaftlichen Dokumenten durchsuchen. Durch die Vereinbarungen mit Fachgesellschaften und Verlagen ist dies für die Webcrawler von Google nicht nur im freien Web, sondern auch auf den geschützten Seiten der Vertragspartner möglich. Die Crawler extrahieren die bibliographischen Daten der gefundenen Dokumente ebenso wie die darin enthaltenen Zitationen. Für diese Aufgaben werden spezielle Algorithmen eingesetzt. Wie bei Google üblich, findet keine intellektuelle Überprüfung der ausgeführten Arbeiten statt. Andere Contentanbieter wie beispielsweise Hosts und Bibliotheken, die Anbieter von Fachdatenbanken, Bibliothekskatalogen und Virtuellen Fachbibliotheken sind, erstellen im Gegensatz dazu ihre Metadatensätze vollständig intellektuell bzw. semiintellektuell unter Einsatz von lernenden Indexierungsprogrammen.

Linkresolver

Die Crawler erhalten jedoch keinen Zugang zu bibliothekarischen Datenbeständen. Der Zugriff auf die notwendigen Daten von kooperierenden Bibliotheken kann nur über Linkresolver erfolgen. Diese stellen die Schnittstelle zu den elektronischen Angeboten der Bibliotheken dar. Hierfür sind jedoch Änderungen am Linkresolver durch dessen Anbieter notwendig. Danach ist es Google Scholar möglich, einem Bibliotheksbenutzer aus der Trefferliste heraus auf den Volltext weiterzuleiten.

Über die Schnittstelle ist das Auslesen der notwendigen Angaben über die lizenzierten Dokumente wie z. B. den Anbieter und den Zeitraum und den Link zum Volltext aus dem Bibliothekskatalog möglich.[13] Dafür wird eine XML-Datei auf der Bibliotheks-Website benötigt, die täglich von den internen Konfigurationsdateien des eingesetzten Linkresolvers erzeugt wird. Sie enthält den Titel der Zeitschrift, deren ISSN sowie die Angaben zum Subskriptionszeitraum. Diese Angaben bestehen aus dem Jahr, dem Jahrgang und der Heftnummer des ersten und des letzten lizenzierten Zeitschriftenheftes. Darüber hinaus können Kommentare über Bestandslücken oder Zugangsbeschränkungen von der Bibliothek eingefügt werden. Zur Unterstützung der Bibliotheken bei der Erstellung dieser Datei bietet Google Scholar eine Beispieldatei an.[14]

Trefferanzeige und Suche

Bei jeder Suche wird nach passenden Dokumenten und nach allen Dokumenten gesucht, in denen diese Dokumente zitiert werden. Den Haupttreffer stellen gegebenenfalls indexierte Verlagspublikationen dar. Die beschriebenen Mehrwertdienste werden übersichtlich am Ende der Anzeige jedes Treffers angeboten.

Die Trefferliste kann weiter eingeschränkt werden. Über ein Pull-Down-Menü kann das früheste Erscheinungs- bzw. Publikationsjahr festgelegt werden. Über ein zweites Menü besteht die Möglichkeit, Zitate in die Treffermenge einzuschließen oder nur Treffer anzeigen zu lassen, die mindestens eine Zusammenfassung besitzen. Mit dieser Einstellung ist es möglich, sowohl Treffer ohne Abstracts als auch Zitationen auszuschließen. Weitere Optionen zur Sortierung durch den Nutzer bietet Google Scholar jedoch nicht. Google Scholar bietet an dieser Stelle einen Alerting-Dienst an. Damit kann sich ein Nutzer über neu indexierte Dokumente, die zur Suchanfrage passen, per E-Mail informieren lassen. Die eingegebene Suchanfrage wird in das Feld „Benachrichtigungsabfrage“ übernommen. Nach gegebenenfalls notwendigen Änderungen an der Suchanfrage und der Eingabe der E-Mail-Adresse wird der Alertingdienst durch den Klick auf „Alert erstellen“ eingerichtet.

Google Scholar bietet eine einfache Suche, eine erweiterte Suche und eine Suche mit Operatoren innerhalb der einfachen Suche. Für diese Suchvarianten können vorab gewisse Einstellungen vorgenommen werden. So kann die Sprache der Dokumente und der Benutzeroberfläche sowie die Anzahl der Treffer pro Seite ausgewählt werden. Außerdem kann in den Einstellungen die Heimatbibliothek für die Funktion Bibliothekslink ausgewählt werden. Eine weitere angebotene Voreinstellung betrifft die Literaturverwaltung. Über die Einstellung „Bibliographiemanager“ kann der Nutzer das Format auswählen, in dem er Daten in seine Literaturverwaltungssoftware importieren möchte.

Einfache Suche

In der einfachen Suche können einzelne Suchbegriffe nacheinander eingegeben werden, die automatisch mit „AND“ verknüpft werden. Die Phrasensuche ist durch den Einschluss der Suchbegriffe in Anführungszeichen möglich. Für die Suche mit dem Autorennamen ist es unerheblich, ob er nach dem Schema „Nachname Vorname“ oder „Vorname Nachname“ eingegeben wird. Jedoch muss die Suchanfrage den bzw. die Vornamen eines Autors sowohl vollständig ausgeschrieben als auch nur mit dem ersten Vornamen abgekürzt umfassen, um alle Dokumente des Autors zu finden. Selbstverständlich können auch die Namen mehrerer Personen in das Suchfenster eingegeben werden.

Erweiterte Suche

Die erweiterte Suche bietet mehrere Eingabefelder, welche die einfache Nutzung der Boole’schen Operatoren ermöglichen. In dem Auswahlfeld „mit allen Wörtern“ wird eine automatische UND-Verknüpfung durchgeführt und nach den Begriffen in allen Feldern der Datenbank gesucht. Die Phrasensuche ist im Feld „mit der genauen Wortgruppe“ möglich. Mit synonymen, quasisynonymen oder anderssprachigen Begriffen in einer Suchanfrage kann mit „mit irgendeinem der Wörter“ gesucht werden. Über das Feld „ohne die Wörter“ können Treffer, die bestimmte Begriffe enthalten, ausgeschlossen werden. Sie entspricht dem Operator „NOT“.

Die Suche kann über den gesamten Volltext erfolgen oder nur auf den Titel des Artikels eingeschränkt werden. Lediglich in den Metadaten eines intellektuell erschlossenen Dokumentes zu recherchieren wird von Google Scholar leider nicht unterstützt. Weitere Einschränkungen sind auf das Publikationsjahr bzw. einen Zeitraum und auf die Veröffentlichung in einer Publikation, also z. B. in einer Fachzeitschrift, möglich. Dabei muss jedoch beachtet werden, dass nicht alle indexierten Dokumente eine Jahresangabe enthalten und diese bei der Suche demzufolge nicht berücksichtigt werden. Es kann außerdem explizit nur nach dem Metadatum „Autor“ gesucht werden. Die beschriebenen notwendigen Suchen mit verschiedenen Varianten des Autorennamens sind auch in der erweiterten Suche notwendig.

Kommandobasierte Suche

Die unter „erweiterte Suche“ beschriebenen Präzisierungen der Suchanfrage können auch über die Eingabe der entsprechenden Operatoren als Zeichen oder als Begriff in Großbuchstaben in dem Eingabefeld der einfachen Suche vorgenommen werden.

Die UND-Verknüpfung von Begriffen wird automatisch durch die Aneinanderreihung dieser Begriffe erzeugt. Der Operator „AND“ oder das Pluszeichen führt zur Berücksichtigung von Buchstaben, Zahlen und allgemeinen Wörtern (Stoppwörtern), die eigentlich bei der Suche übergangen werden.

Mit dem Minuszeichen oder dem Begriff „NOT“ wird der anschließende Begriff aus der Suche ausgeschlossen. So können Dokumente mit diesem Begriff aus der Treffermenge entfernt werden. Der dritte Boole’sche Operator „OR“ kann nur als Begriff eingegeben werden. Mit ihm können, wie schon beschrieben, Synonyme, Quasisynonyme oder Übersetzungen von Begriffen gleichzeitig in einer Suche berücksichtigt werden. Auf diese Weise kann mit einer Anfrage eine breitere thematische Abdeckung erreicht werden.

Weitere Operatoren sind „autor“, „allintitle“, „filetype“ sowie „site“. Mit ihnen kann die Suche auf die Metadaten Autor bzw. Titel eines Dokumentes bzw. das Dokumentformat und auf die Quelle wie bspw. eine URL eingeschränkt werden. Die aus der Google Websuche bekannte Operator „allinurl“ wird (wie schon beschrieben) von Google Scholar nicht unterstützt. Zudem bietet GS im Vergleich zu den Recherchemöglichkeiten in wissenschaftlichen Fachdatenbanken wenige Suchmöglichkeiten an. Die Gesamtheit der Suchoptionen bietet verglichen mit den Möglichkeiten in Fachdatenbanken weniger Suchmöglichkeiten für eine wissenschaftliche Recherche. Die von Fachverlagen und Fachgesellschaften erstellten Metadaten wie Abstracts, Keywords etc. werden bspw. von der Suchmaschine nicht berücksichtigt.

Beispiel

Die beschriebenen Dienste von Google Scholar sollen anhand einer Beispielsuche demonstriert werden. In das Feld der „einfachen Suche“ wird der Autorenname Stephen Hawking eingegeben. Die Suche ergibt (mit Stand vom Juli 2015) 29.100 Treffer. Die Trefferliste zeigt auf den ersten fünf Seiten nur thematisch passende Dokumente an. Diese sind jedoch fast ausschließlich englischsprachig und belegen die starke Konzentration der Nachweise auf den englischen Sprachraum.

Rechts neben dem Suchfeld der einfachen Suche befindet sich der Link zur „erweiterten Suche“. Diese bietet verschiedene Eingabefelder für die genauere Formulierung der Suchanfrage. Für die Suche nach Publikationen von Stephen Hawking muss sein Name im Feld „Artikel geschrieben von“ als Phrase eingetragen werden. Diese Suche ermittelt 790 Treffer. Wie weiter oben bereits beschrieben, wird auch eine kommandobasierte Suche über das Suchfeld der einfachen Suche angeboten. Hier muss der Operator für die Suche nach Autorennamen eingesetzt werden. Die Suchanfrage lautet: autor:Stephen Hawking. Es werden ebenfalls 790 Treffer ermittelt, da die Suchanfragen der erweiterten und der kommandobasierten Suche identisch lauten.

Die möglichen Einschränkungen der Trefferliste wurden weiter oben schon skizziert. Nun wird der Aufbau einer Kurztrefferanzeige anhand eines nachgewiesenen Dokumentes aus der Trefferliste der vorgestellten Suche beschrieben:

[PDF] Der große Wurf
S Hawking... -2010 - buchliebling.com
Auffassung, ganz anders sogar als das Bild, das wir vielleicht noch vor ein oder zwei Jahrzehnten gezeichnet hätten. Trotzdem reichen die ersten Entwürfe des neuen Konzepts fast hundert Jahre zurück. Nach der traditionellen Auffassung vom Universum bewe...
Zitiert durch: 5 - Ähnliche Artikel - HTML-Version - Alle 7 Versionen

Zunächst zeigt Google Scholar den Titel des Treffers an, der durch Anklicken zum indexierten Dokument führt. Im nächsten Schritt werden die extrahierten bibliographischen Angaben des Dokumentes präsentiert. Wie in diesem Beispiel ersichtlich, können die Metadaten so knapp sein, dass sie für das Zitieren in einer wissenschaftlichen Arbeit nicht ausreichen. Zur Beurteilung des Dokumentes wird anschließend ein Ausschnitt aus dem Volltext angeboten. In der letzten Zeile bietet Google Scholar die bereits vorgestellten Mehrwertdienste an.

Klickt man Zitiert durch: 5 an, werden die Publikationen als Kurztrefferliste angezeigt, die dieses Werk zitieren. Über den Link „Ähnliche Artikel“ gelangt der Nutzer ebenfalls zu einer Trefferliste mit Dokumenten, die das gleiche Thema behandeln. Da dieser Treffer im Format PDF vorliegt, ermöglicht Google Scholar seine Anzeige in HTML. Es konnten sieben andere Versionen des Dokumentes erkannt werden, die unter dem Link „Alle 7 Versionen“ gruppiert sind. Weitere Mehrwertdienste sind Bibliothekssuche und Bibliothekslink. Die Suche im WorldCat wird angeboten, wenn es sich bei dem ermittelten Treffer um ein gedrucktes Werk (meistens ein Buch) handelt. Ist der Nutzer von Google Scholar zugleich auch Nutzer einer Bibliothek, die mit der wissenschaftlichen Suchmaschine kooperiert, wird ebenfalls in der untersten Zeile der „Bibliothekslink“ angeboten. Wie bereits beschrieben, wird die Verfügbarkeit einer lizenzierten elektronischen Version des Artikels überprüft und gegebenenfalls direkt auf den Volltext verlinkt.

Kritik

Positive Kritik

Die Attraktivität einer Recherche von wissenschaftlich relevanten Dokumenten mit der Suchmaschine Google Scholar liegt in der einfachen Bedienbarkeit, der übersichtlichen Trefferpräsentation sowie in der Bearbeitungsgeschwindigkeit. Auch die wahrscheinlich enorme Größe des Indexes und damit des abgedeckten Suchraumes und die gewohnte Qualität des Ranking sind für den Erfolg der wissenschaftlichen Suchmaschine wesentlich. Darüber hinaus ist die Suchmaschine intuitiv zu benutzen, Kenntnisse über Thesauri, Klassifikationen oder andere kontrollierte Vokabulare sind nicht notwendig.[4]

Diese Charakteristika haben Google Scholar zu einem wichtigen und intensiv genutzten Konkurrenten von etablierten akademischen Suchdiensten gemacht. Dazu haben auch die Kooperationen mit Bibliotheken sowie die Verlinkung zum WorldCat beigetragen. Hervorzuheben ist in diesem Zusammenhang, dass die wissenschaftliche Suchmaschine Bielefeld Academic Search Engine (BASE) Ergebnisse aus Google Scholar in ihre Suchergebnisse einbindet.

Google Scholar macht sowohl Volltexte als auch bibliographische Daten zugänglich. Die Bedeutung von Google Scholar liegt in der Öffnung von Teilen des Invisible Web. Durch die Kooperation mit Verlagen etc. werden Dokumente indexiert, die in Datenbanken verborgen sind und normalerweise nicht für Webcrawler zugänglich sind. Zusammen mit der Indexierung freier Webinhalte kann die wissenschaftliche Suchmaschine zu unzähligen Volltexten direkten Zugriff bieten oder sie zumindest bibliographisch nachweisen. Für kostenpflichtige Volltexte liegt ein Abstract vor, anhand dessen die Relevanz des Dokuments vor Zahlung der Lizenzgebühr eingeschätzt werden kann. Außerdem geht der Nachweis von Werken über den eigentlichen Suchraum von Google Scholar hinaus. Durch die Extraktion von Zitationen sind Werke mit ihren bibliographischen Angaben nachgewiesen, die nicht digital vorliegen.[6]

Die Angabe der Zitationen kann helfen, thematisch verwandte Dokumente im Internet zu finden, da durch die zitierenden Quellen gebrowst werden kann. Gleiches gilt für die Funktion „zitiert durch“, durch die sofort weitere Quellen zu einem Thema zur Verfügung stehen.[10]

Liegen die Quellen nicht digital vor, bietet Google Scholar oftmals die Weiterleitung an den WorldCat oder den Bibliothekslink an. Dieser Link ist für Nutzer von Bibliotheken, die mit Google Scholar zusammenarbeiten, sehr vorteilhaft.[15]

Die Suchmaschine ist kostenlos und tritt mit ihrem Anspruch, wissenschaftliche Literatur nachzuweisen, in Konkurrenz zu kommerziellen Datenbankanbietern und Volltextarchiven. Durch die Zitationsanalyse von Webzitierungen kann Google Scholar als Alternative (nicht unbedingt als Konkurrenz) zum etablierten, aber teuren Science Citation Index sowie zu Scopus gesehen werden.[16]

Durch die interdisziplinäre Gestaltung des Suchdienstes erhöht sich die Sichtbarkeit der Publikationen fachübergreifend. Google Scholar bewertet die Wissenschaftlichkeit von Dokumenten anhand des jeweiligen Layouts. Die Suchmaschine indexiert Zeitschriften, die aufgrund der selektiven Auswahlkriterien im Science Citation Index nicht ausgewertet werden. Dies betrifft vor allem Open-Access-Zeitschriften. Somit wird die Sichtbarkeit der Zeitschriften und der Autoren im Internet erhöht. Dies kann als „Demokratisierung“ des Wissenschaftssystems bezeichnet werden.[10]

Die Erschließung von Internetressourcen mit Webcrawlern hat zum einen den Vorteil, dass nur ein Index besteht, der bei einer Suche abgefragt werden muss. Dies erleichtert auch die Aktualisierung der Daten und ist ein Vorteil gegenüber Metasuchmaschinen. Zum anderen werden die Treffer in der Anzeige gleich dargestellt, egal von welchem Datenlieferanten sie stammen.[4]

Negative Kritik

Kritisiert wird die Informationspolitik von Google Scholar. Die Nutzer werden nicht über die Kriterien, die der Beurteilung der Wissenschaftlichkeit und dem Ranking zu Grunde liegen, informiert. Auch über die genaue Zielgruppe werden nur vage Aussagen getroffen. Prinzipiell richtet sich die Suchmaschine an alle, die wissenschaftliche Literatur suchen. Es bleibt ebenfalls unklar, welche Datenbestände indexiert werden. Über den Indexierungsgrad und mögliche Indexierungslücken beim Nachweis von Volltextangeboten der wissenschaftlichen Kooperationspartner wird nichts bekannt gegeben. Die Aussagen bleiben sehr ungenau.[16] Auch die Größe der Datenbasis und die Aktualisierungshäufigkeit bleiben unbekannt.[10]

Kritisch gesehen werden muss ebenfalls, dass Google Scholar auch studentische Arbeiten und Power-Point-Präsentationen als wissenschaftliche Publikationsformen ansieht. Die Durchmischung dieser Dokumente mit Fachartikeln und deren Preprints führt dazu, dass die formale und fachliche Qualität der Treffer unterschiedlich ist.[4] Besonders für Studierende ohne Erfahrung in der Literaturrecherche ist es schwierig, passende und hochwertige Quellen zu ermitteln.[10] Außerdem entsteht durch die Berücksichtigung von Vortragsunterlagen und Preprints das Problem von Dubletten bzw. Fast-Dubletten, da die unterschiedlichen Versionen als zusammengehörig identifiziert und unter der aktuellsten Version gruppiert werden müssen.[4]

Dies setzt jedoch die korrekte Erkennung der Daten während der Indexierung voraus. Die Indexdaten werden ausschließlich automatisch anhand von Algorithmen aus dem Volltext extrahiert und für sämtliche Dienste genutzt. Als Grundlage dient lediglich das Layout der Dokumente.[9] Werden in diesem Prozess die Daten falsch gelesen oder nicht in die korrekte Kategorie eingeordnet, sinkt die Qualität sämtlicher angebotener Dienste.[4]

Aber nicht nur falsch indexierte Daten haben einen negativen Einfluss. Da sich die Zitationshäufigkeit ausschließlich aus den indexierten Quellen bestimmt, bedeutet dies im Umkehrschluss, dass nicht indexierte Dokumente nicht für diesen Dienst herangezogen werden können. Dies führt zu einer Verzerrung des Bildes. Sind Zitationen zu einem Titel nicht im Index enthalten, wird dieser Titel schlechter gerankt und erscheint in der Trefferliste weiter unten, obwohl er inhaltlich sehr gut passt.[7] Darüber hinaus ist der Mechanismus zur Zitationsextraktion und -analyse in seiner Funktionalität umstritten. Der Grund ist seine Fehleranfälligkeit. Die von Google Scholar ermittelte Zitationsrate ist nicht immer korrekt und, wie gerade erwähnt, können darin nicht alle zitierenden Werke enthalten sein. Somit kann aus der Zitationsrate nicht die tatsächliche Relevanz des Treffers abgelesen werden.[10]

Die bibliographischen Angaben aller Dokumenttypen sind in der Trefferangabe zudem sehr kurz. Darüber hinaus sind sie häufig aufgrund der beschriebenen Indexierungs- und Extraktionsalgorithmen formal und inhaltlich falsch. Sie genügen kaum den Ansprüchen des wissenschaftlichen Arbeitens.[8]

Außerdem sind die Nutzer sehr stark vom Ranking der Treffer abhängig, da Google Scholar keine Möglichkeiten zum Sortieren der Treffer bietet. Es können lediglich Zitationen oder Dokumente vor einem ausgewählten Erscheinungsjahr ausgeschlossen werden. Problematisch ist in diesem Zusammenhang die fehlende Kontrolle durch den Menschen. Die Algorithmen bestimmen, welche Dokumente indexiert werden und welchen Rankingwert sie erhalten.[10]

Kritisch betrachtet werden muss die Beschränkung Google Scholars auf die Indexierung von Volltexten. Schlagworte, Notationen oder Abstracts, die qualitativ hochwertige Artikel aus Fachzeitschriften besitzen, werden nicht indexiert und bleiben somit völlig unberücksichtigt. Damit verschenkt Google Scholar eine Möglichkeit, die Präzision in der Recherche zu erhöhen. Auch eine weitere Bearbeitung der indexierten Dokumente durch Stemming-Verfahren findet nicht statt.[4]

Die Suchwerkzeuge, die Google Scholar anbietet, sind sehr beschränkt. Es können lediglich Einschränkungen nach Autoren, Zeitschriften und Publikationsjahr vorgenommen werden. Diese Suchoptionen genügen nicht den Anforderungen an eine wissenschaftliche Fachrecherche.[15] Außerdem werden bei der Suche mit der Datumsbeschränkung Quellen ohne Veröffentlichungsdatum ausgeschlossen und nicht in die Trefferliste einbezogen. Deshalb ist diese Sucheinschränkung für eine präzise ebenso wie für eine auf Vollständigkeit angelegte Suche ungeeignet. Kritisch gesehen werden muss, dass zudem keine Trunkierungen und Maskierungen vorgenommen werden können.

Aber auch mehrere Sucheinschränkungen, die der Nutzer der Google Websuche gewohnt ist, werden von Google Scholar nicht unterstützt. Dazu gehören die Operatoren „allinurl“ und „filetype“. Neben den Boole’schen Operatoren unterstützt Google Scholar nur „allintitle“, „site“ und „autor“. Außerdem kann nur über Stichwörter thematisch gesucht werden. Dies ist für eine thematische Suche unzureichend. Weiterhin nachteilig wirkt sich der multidisziplinäre Ansatz von Google Scholar aus. Die deutschsprachige Version von Google Scholar bietet keine thematische Einschränkung, es kann ausschließlich multidisziplinär gesucht werden. In der englischen Version stehen sieben allgemeine Forschungsgebiete zur Beschränkung des Suchraumes zur Auswahl. Auch die Qualität der Dokumente ist keine Einschränkungsoption. Sinnvoll wäre die Möglichkeit, die Suche auf gewisse Dokumenttypen zu beschränken oder Typen auszuschließen.[4] Die beschränkten Suchmöglichkeiten sind außerdem teilweise fehlerhaft, da sie ausschließlich auf maschinell ausgewählten, indexierten und bewerteten Daten beruhen.[4][10]

Zusammenfassend lässt sich festhalten, dass die unzureichenden Suchmöglichkeiten in Google Scholar die Recherche in Fachdatenbanken nicht ersetzen kann. Gerade für thematische Suchen bieten Thesauri, Klassifikationen und Abstracts gute Suchmöglichkeiten, die Google Scholar nicht nutzt. Auch die fehlenden Trunkierungsmöglichkeiten sind ein deutlicher Nachteil gegenüber Fachdatenbanken. Für eine auf Vollständigkeit oder Präzision ausgerichtete Literatursuche sollte die wissenschaftliche Suchmaschine Google Scholar nicht eingesetzt werden. Jedoch eignet sie sich hervorragend für einen Einstieg in ein Thema sowie zur Recherche nach Volltexten anhand von bibliographischen Angaben.[8] Darüber hinaus sind im heutigen digitalen Zeitalter PDF-Versionen für fast jede Datei auf der Pdfscholar-Website verfügbar.

Literatur

Einzelnachweise

  1. Michael Gusenbauer: Google Scholar to overshadow them all? Comparing the sizes of 12 academic search engines and bibliographic databases. In: Scientometrics. 10. November 2018, ISSN 0138-9130, doi:10.1007/s11192-018-2958-5.
  2. Ralf Neumann: Zur Filterkraft von Literatur-Datenbanken, Laborjournal-Blog
  3. Mehdi Dadkhah, Marilyn H. Oermann, Raghu Raman, Lóránt Dénes Dávid: A serious threat to publishing ethics and research integrity: Citations to hijacked journals. In: Equilibrium. Quarterly Journal of Economics and Economic Policy. Band 18, Nr. 4, 2023, S. 897–906, doi:10.24136/eq.2023.028.
  4. a b c d e f g h i j k Dirk Lewandowski: Google Scholar. Ausbau und strategische Ausrichtung des Angebots sowie Auswirkungen auf andere Angebote im Bereich der wissenschaftlichen Suchmaschinen. 2005 (haw-hamburg.de [PDF]).
  5. a b c Philipp Mayr: Google Scholar als akademische Suchmaschine. In: VÖB-Mitteilungen. Band 62, Nr. 2, 2009, S. 18–28 (hu-berlin.de [PDF]). PDF (Memento vom 26. März 2012 im Internet Archive)
  6. a b Dirk Lewandowski: Nachweis deutschsprachiger bibliotheks- und informationswissenschaftlicher Aufsätze in Google Scholar. In: Information Wissenschaft und Praxis. Band 58, Nr. 3, 2007, S. 165–168 (durchdenken.de [PDF]).
  7. a b c d About Google Scholar. Abgerufen am 5. April 2023.
  8. a b c d Franka Handreck, Michael W. Mönnich: Google Scholar als Alternative zu wissenschaftlichen Fachdatenbanken. In: B.I.T. online. Band 11, Nr. 4, 2008, S. 401–406 (b-i-t-online.de).
  9. a b Google Scholar, Kategorie Support für Verlage
  10. a b c d e f g h i René König: Google, Google Scholar und Google Books in der Wissenschaft — Steckbrief III im Rahmen des Projekts Interactive Science. ITA-Projektbericht Nr. A52-3, Wien: Institut für Technikfolgen-Abschätzung (ITA), 2010 (PDF; 2,1 MB)
  11. Why Google Scholar Has Trouble Indexing Institutional Repositories. In: CNI: Coalition for Networked Information. 30. März 2012, abgerufen am 16. April 2023 (amerikanisches Englisch).
  12. Google Scholar, Kategorie Google Scholar Hilfe.
  13. Google Scholar, Kategorie Support für Bibliotheken.
  14. Beispieldatei. Abgerufen am 2. Januar 2019.
  15. a b Philipp Mayr; Anne-Kathrin Walter: Abdeckung und Aktualität des Suchdienstes Google Scholar, 2006. In Information Wissenschaft und Praxis. DGI, Frankfurt (Memento vom 25. September 2006 im Internet Archive) (PDF; 529 kB)
  16. a b Ben Kaden: Über Google Scholar, unveröffentlicht, 2006