Bei der Verwendung von mehreren aufgeschalteten Domains kann es schnell zu Duplicate Content kommen. Der Webmaster sollte sich immer vor Augen führen, dass die Benutzer einer Suchmaschine immer die beste Antwort auf deren Frage bekommen möchten. Kopien, Plagiate oder wie man sie sonst noch nennen mag, sind für die Benutzer nicht relevant, und würden mit anderen gute (unique) Inhalte konkurrieren und diese in den SERP zu unrecht nach unten verdrängen. Google erkennt Duplicate Content und blendet diesen aus. Das hat zur Folge, dass diese Webseiten aus den Suchergebnissen verschwinden.

Ein Artikel mit einzigartigem Inhalt (unique content) sollte deswegen auch nur unter einer einzigen Internetadresse / Domain erreichbar sein.
Das Problem von Duplicate Content, wenn mehrere Domains gleichzeitig auf den identischen Inhalt aufgeschaltet worden sind, kann durch eine grundlegende Konfiguration vermieden werden.
Das Vermeiden von Duplicate Content ist ein wichtiges Kriterium der Suchmaschinenoptimierung Ihrer Webseite.

Matt Cutts aus der AntiSpam Abteilung von Google erklärt die Vorgehensweise von Google bei Vorfinden von Duplicate Content wie folgt:

Where we can find it [DC] we often try to group it altogehter and treat it as if it’s just one piece of content. Matt Cuts

Man möchte meinen, dass das erst einmal gar nicht so schlimm klingt. Ein Problem hat das Ganze aber durchaus. Nehmen wir an, dass vier unterschiedliche Domains auf einen identischen Inhalt aufgeschaltet sind. Für den Crawler ergeben sich eine Seite mit unique Content und drei Domains, die ein Duplikat dieses Originals darstellen. Aus Erfahrung wird der Suchmaschinen Crawler alle weiteren Webseiten mit identischem Inhalt, der keinen Mehrwert bringt, einfach in den SERP ausblenden. Wie sich in der Vergangenheit herausstellte, springt der Crawler entscheidet über das Original von Zeit zu Zeit, so dass eine zuvor als Original festgelegte Domain mit hoher Sichtbarkeit dann plötzlich ausgeblendet wird, weil eine andere zuvor als Duplikat behandelte Domain, die eine deutlich geringere Sichtbarkeit besitzt, dann plötzlich als Original ausgewählt wird. Das kann schwerwiegende Folgen haben für die gesamte Sichtbarkeit haben und starke Schwankungen im Ranking nach unten hin bedeuteten.

Duplicate Content durch Non-WWW und WWW Varianten

Neben dem Auftreten von Duplicate Content aufgrund von mehreren Domains kann es auch bei nur einer aufgeschalteten Domain zu Duplicate Content kommen. Ohne eine grundlegende Serverkonfiguration wird die Webseite somit einmal „ohne www“ und einmal „mit www“ ausgeliefert. Google interpretiert die zwei unterschiedlichen Domains webdesign-aus-braunschweig.de und www.webdesign-aus-braunschweig.de als zwei unterschiedliche Seiten, obwohl diese den identischen Inhalt beinhalten. Eine saubere Serverkonfiguration vermeidet Duplicate Content und liefert nur eine bevorzugte Version der Webseite (mit oder ohne www) an den Benutzer und an den Google Crawler aus.

crawler robot and two similar websites

There will be duplicate content if identical content is available on different domains.

Duplicate Content durch Erreichbarkeit über http und https

Wird auf einer Webseite https verwendet, dann kann Duplicate Content entstehen, wenn die Webseite sowohl über http:// als auch über https:// aufgerufen werden kann. Wie die oben bereits genannten www und non-www Varianten stellen auch die http:// und https:// Varianten für Google eine jeweils unterschiedliche Webseite dar, die mit ihren Varianten immer in Konkurrenz steht. Eine saubere Serverkofiguration sorgt dafür, das der Content immer über https ausgeliefert wird.

Duplicate Content in Content Management Systemen

Duplicate Content durch parallele Aufschaltung von mehreren Domains auf den gleichen Webspace und Duplicate Content durch eine fehlerhafte Serverkonfiguration, die eine Webseite mit und ohne www erreichbar macht, ist vermeidbar und sollte eigentlich gar kein Thema sein.
Bei komplexeren Webseiten, die ein Content Management System verwenden, fällt jedoch an verschiedenen Stellen aufgrund des komplexeren Aufbaus und der großen Menge an Content doch häufiger Duplicate Content an.
Viele Webseiten wie E-Commerce Onlineshops, Nachrichtenportale und viele Webseiten, die regelmäßig Content veröffentlichten, basieren in der Regel auf einem Content Management System. Für eine bessere Übersichtlichkeit werden Strukturierungselemente verwendet. Darunter fallen Unterseiten, Kategorien, für bestimmte Zeiträume erzeugte Archive, nach Author zusammengefasste Beitragsübersichten und mehr.
Die folgende Liste zeigt, über welche URL ein bestimmter „Artikel-1“ in einem CMS mit den o.g. Strukturierungselementen erreichbar ist.

  1. example.com/Artikel-1
    Der Artikel ist direkt erreichbar.
  2. example.com/Kategorie-1/Artikel-1
    Der Artikel ist thematisch der Kategorie 1 zugeordnet und kann über diese Kategorie aufgerufen werden. In der URL ist „Kategorie-1“ deutlich erkennbar.
  3. example.com/Kategorie-2/Artikel-1
    Weil der Artikel aber thematisch nicht nur zu einer Kategorie passt, wurde er zusätzlich auch der Kategorie 2 zugeordnet.
  4. example.com/Author/Artikel-1
    Einige CMS bieten die Möglichkeit, Artikel nach Author zu sortieren.
  5. example.com/2017/Artikel-1
    Einige Content Management Systeme erzeugen auch noch Archive. Darin werden Beiträge eines Monats chronlogisch zusammengefasst.

Dieses Beispiel zeigt, wie schnell Duplicate Content beim Einsatz von Content Management Systemen entsteht, wenn man sich mit der Problematik nicht auseinandersetzt.

Matt Cutts äußert sich zum grundsätzlichen Auftreten von Duplicate Content wie folgt:

Duplicate Content does happen

Matt Cuts, Google Anti Spam Team

Canonical Tag

Ein möglicher Ansatz für die Behandlung der Duplicate Content Problematik sind Umleitungen auf Webserverebene mithilfe einer permanenten 301 Weiterleitung. Für kleine Webseiten sind solche Umleitungen wegen der überschaubaren Komplexität der Inhalte individuell und schnell durchführbar. Falls kein Zugriff auf den Webserver möglich ist, kann auch ein Canonical Tag verwendet werden. Dieser ist eine Angabe (rel=canonical) im Bereich der HTML Seite und legt bei einer Auswahl an Unterseiten wie z.B. Unterseiten mit und ohne voran gestellte Kategorie (s.o.), Seiten mit Session-ID et cetera eine dieser Seiten als gewünschte Hauptseite fest.

Webseiten mit einer großen Anzahl an Artikeln können (oder sollten) aus mannigfaltigen Gründen nicht alle Artikel auf einmal innerhalb nur einer einzigen Seite darstellen. Die CMS erzeugen automatisch eine Seite 2, Seite 3, et cetera (Paginierung), durch die sich der Benutzer durchklicken kann. In der Vergangenheit hat ein bekanntes Shopsystem folgendes Szenario mithilfe des Canonical Tags bei der Paginierung geschaffen. So hat das CMS bei der zweiten (und dritten Seite et cetera) Kategorieseite „https://www.example.com/Kategorie-1/?p=2“ automatisch folgenden Canonical Tag gesetzt -> gesetzt. Dieser Eintrag hatte zur Folge, dass die Inhalte von der zweiten Kategorieseite nicht mehr indexiert wurden. Die Angabe legte die erste Kategorieseite als Hauptseite fest und implzierte, dass der identische Inhalt auf der ersten Kategorieseite vorliegt, was aber nicht der Fall war.
Durch diese fehlerhafte Implementierung wurde dem Crawler suggeriert, dass auf den hinteren Kategorieseiten nur Duplikate der ersten Kategorieseite liegen würden, was dummerweise zu einer Deindexierung dieser Inhalte führte.

Für einige CMS gibt es fertige Plugins, welche die URL Adressen so umschreiben, dass die Kategorien vollständig aus der URL Struktur entfernt werden. So wird aus
„http://www.example.com/Kategorie-1/Artikel-1 -> „http://www.example.com/Artikel-1″

Was in der Theorie toll klingt, erweist sich in der Praxis bei CMS Systemen häufig als problembehaftet (s. Pagination). Bei der Integration des Canonical Tags haben die Shopsysteme deutliche Unterschiede. Gewünschte Funktionen müssen in der Datenbank und den Kernkomponenten häufig vom Webentwickler implementiert werden.

a vital side and a dead side of a tree as metaphor for two websites which should be one domain

one vital side and a dead side of a tree as metaphor for two domains which have the same content, one domain growing healthy while the other one loosing vital signals.

Attribute zur Vermeidung von Duplicate Content

Ein Shopartikel, welcher in den Grundeigenschaften identisch, aber in fünf verschiedenen Farben (rot, grün, blau, gelb und schwarz) und fünf Größen (XS, S, M, L, XL) erhältlich ist, kann klassisch zehn mal untereinander gelistet werden. Falls die Artikelbeschreibungen aller zehn Artikel bis auf Farbe und Größe identisch sind, ergibt sich eine prozentual hohe Überlappung des Contents, was zur Folge haben wird, dass Google neun der zehn Artikel als Duplicate-Content werten und in der Suche nicht darstellen wird. Das ist grundsätzlich kein Problem, jedoch leidet das Nutzererlebnis durch eine solche Überflutung mit nahezu identischen Artikeln.
Eine starke Reduzierung der inhaltlichen Überlappung durch aufwändig überarbeitete individuelle (unique) und sich deutlich von den anderen Varianten abgrenzende Artikelbeschreibungen (obwohl das Grundprodukt ja eigentlich identisch) kann die Bewertung der einzelnen Produkte als Duplicate Content verhindern. Das Problem mit der schlechten Usability bleibt aber. Als Alternative zur klassischen Auflistung können auch Artikel-Attribute verwendet werden. Dabei wird lediglich ein Grundartikel eingestellt, dem die gewünschten Attribute anschließend zugeordnet werden.

Vorteile von Attributen

  • Das Erstellen von nur einem Artikel erleichtert dem Shopbesucher, das Produktangebot einer Kategorie zu überblicken. Die Übersichtlichkeit wird besser und der Benutzer findet das gewünschte Produkt schneller. Das Nutzererlebnis wird verbessert.
  • Die Größe der Datenbank wird deutlich reduziert. Auch sinken die zu Anfragen an Datenbank und Webserver. Das hat eine schnellere Ladezeit der Webseite zur Folge.
  • Die einzelnen Größen oder Farben eines Produkts stehen dadurch für Google nicht mehr in Konkurrenz zueinander. Der Grundartikel entspricht dem zu indexierenden Produkt.

Nachteile von Attributen

  • Das Erzeugen von Attributs-Regeln ist komplexer und Bedarf abhängig vom Shopsystem häufig etwas Einarbeitungszeit.
  • Die Funktionalität von Attributen ist von Shopsystem zu Shopsystem unterschiedlich, wie z.B. Einschränkungen bei der Verwaltung des Warenbestands zeigen.

Shopsysteme haben aufgrund der Vielfalt an Produkten und der damit zusammenhängenden Komplexität einen weitaus schwereren Stand. Werden im Shop neue und gebrauchte Artikel angeboten, so stehen diese zwei Artikel aufgrund der ähnlichen Eigenschaften wie Titel, Artikelbeschreibung und Meta in direkter Konkurrenz zueinander. Die inhaltliche Überlappung ist hoch und einer der Artikel wird von Google vorraussichtlich als Duplicate Content erkannt und dem zufolge deindexiert werden. Dabei ist nur schwer vorherzusehen, welcher dieser beiden Artikel das Rennen machen wird.

twins

Zwillinge mit gleicher DNA aber unterschiedlichem Verhalten.

Damit die Suchmaschine einen der zwei Artikel nicht irrtümlicherweise als Duplicate Content erkennt, sollte (in diesem Fall) sowohl für das den neuen als auch für den gebrauchten Artikel eine eigene Artikelbeschreibung verfasst werden. Die zwei Artikelbeschreibungen dürfen zu einem gewissen Maße gleiche Textbausteine enthalten. Jedoch sollte jede Artikelbeschreibung tatsächlich einzigartig (unique) sein.

Fazit

Langer Rede kurzer Sinn: Google bewertet Inhalte so, dass der Suchmaschinennutzer immer das bestmögliche Resultat angezeigt bekommt. Damit Ihre Webseite in den Suchergebnissen aber so weit oben wie nur möglich angezeigt wird, sollte das Thema Duplicate Content von keinem Webmaster vernachlässigt werden. Nutzen Sie alle Möglichkeiten, um Ihre großartigen Inhalte optimal zu präsentieren und schreiben Sie eine Nachricht, wenn Sie Unterstützung wünschen.
Duplicate Content durch mehrfach aufgeschaltete Domains lässt sich vermeiden! Denken Sie an die www und non-www Varianten, sowie an die Hinweise bei beim Einsatz von HTTPS. Soll eine Webseite über mehrere Domainnamen erreichbar sein, dann sollte der Webserver so eingerichtet werden, dass die Webseite unter aufgeschalteten Domains erreichbar ist, sie den Besucher jedoch mithilfe eines 301 Redirects zu einer festgelegten Domain weiterleitet.