Wir benutzen Cookies, um die Nutzerfreundlichkeit der Website zu verbessern. Durch deinen Besuch stimmst du der Datenschutzerklärung zu.
Alles klar!
BASIC thinking Logo Dark Mode BASIC thinking Logo Dark Mode
  • TECH
    • Apple
    • Android
    • ChatGPT
    • Künstliche Intelligenz
    • Meta
    • Microsoft
    • Quantencomputer
    • Smart Home
    • Software
  • GREEN
    • Elektromobilität
    • Energiewende
    • Erneuerbare Energie
    • Forschung
    • Klima
    • Solarenergie
    • Wasserstoff
    • Windkraft
  • SOCIAL
    • Facebook
    • Instagram
    • TikTok
    • WhatsApp
    • X (Twitter)
  • MONEY
    • Aktien
    • Arbeit
    • Die Höhle der Löwen
    • Finanzen
    • Start-ups
    • Unternehmen
    • Marketing
    • Verbraucherschutz
Newsletter
Font ResizerAa
BASIC thinkingBASIC thinking
Suche
  • TECH
  • GREEN
  • SOCIAL
  • MONEY
  • ENTERTAIN
  • NEWSLETTER
Folge uns:
© 2003 - 2025 BASIC thinking GmbH
Archiv

Big Data im Eigenversuch: Wie man Musikverkäufe mithilfe von Twitter prognostiziert

Robert Vossen
Aktualisiert: 20. Juni 2013
von Robert Vossen
Teilen

model

Big Data ist in aller Munde und ich hab hin und wieder erwähnt, dass ich selbst an einem Forschungsprojekt (PDF) arbeite, bei dem ich den Absatz von Musikalben mithilfe von Twitter prognostizieren möchte. Die Erkenntnis: Es klappt – und zwar mit beeindruckender Genauigkeit.

Das Studiendesign ist im Prinzip simpel: Man schaut sich an, wie oft über ein Album getweetet wurde und vergleicht das mit den Verkaufszahlen. Wenn es eine starke Korrelation gibt, ist das Modell verlässlich.

Daten von Universal Music und DiscoverText

Für die Studie habe ich 25 Alben von Universal Music untersucht, die zwischen Ende Januar und Mitte Februar veröffentlicht wurden, unter anderem „Passione“ von Andrea Bocelli, „Two Lanes of Freedom“ von Tim McGraw oder „Chasing The Saturdays“ von The Saturdays. Die Verkaufszahlen für drei Wochen nach der Veröffentlichung wurden von der Universal Music Group in Santa Monica zur Verfügung gestellt.

BASIC thinking UPDATE

Jeden Tag bekommen 10.000+ Abonnenten die wichtigsten Tech-News direkt in die Inbox. Abonniere jetzt dein kostenloses Tech-Briefing:

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

  • 5 Minuten pro Tag
  • 100% kostenlos
  • Exklusive PDF-Guides

Über DiscoverText, ein kostenpflichtiges Analyse-Tool, habe ich englischsprachige Tweets gesammelt, die entweder den Künstlernamen oder den Albumtitel enthielten und in einem Zeitraum von zwei Wochen vor Veröffentlichung bis eine Woche nach Veröffentlichung gepostet wurden.

3 Millionen Tweets für 2.500 Dollar

Grundsätzlich kann man Tweets auch über die Twitter-API sammeln, aber da ich in meinem Fall die Tweets rückwirkend betrachtet habe, mussten die eingekauft werden. Kostenpunkt: 2.500 Dollar für drei Millionen Tweets, die meine Alma Mater, die University of Southern California, bezahlt hat.

Nachdem ich die Daten gesammelt hatte, musste ich sie sinnvoll ordnen. Ich habe zwei grobe Modelle berücksichtigt: In dem ersten Modell waren alle Tweets, die entweder den Künstlernamen oder den Albumtitel enthielten, im zweiten Modell wurden Tweets berücksichtigt, die sowohl den Künstlernamen als auch den Albumtitel verwenden. Auch wurden hier Tweets gesammelt, in denen der Künstlername und Wörter wie „CD“, „Album“, „Release“ oder bestimmte Songtitel vorkamen.

In beiden Modellen habe ich pro Album eine Stichprobe der gesammelten Tweets auf ihre Relevanz überprüft, denn bei Alben wie „At Peace“ von Ballake Sissoko oder „Icon“ von der Allman Brothers Band haben die wenigsten Tweets etwas mit dem Album zu tun. Insgesamt hatte ich die Freude 18.000 Tweets zu lesen und zu kodieren – pro Tweet braucht man ca. zwei Sekunden.

Drei Modelle, 25 Alben und 23.500 gelesene Tweets

Da das Modell 1a relativ unbrauchbar ist, weil viele irrelevante Tweets gesammelt werden, wurde es nicht weiter berücksichtigt. Für die anderen drei Modelle (1b = relevante Tweets, Künstler oder Album; 2a = alle Tweets, Künstler und Album; 2b = relevante Tweets, Künstler und Album) wurde ermittelt, wie viel Tweets pro Tag von wie vielen unterschiedlichen Usern (Unique User) gesendet wurden und wie viele gemeinsamen Follower (Reichweite) die Unique User haben.

Bei einem Zeitraum von 22 Tagen kommt man somit auf 198 Variablen. Zusätzlich habe ich noch die Summen für die Wochen genommen (2 Wochen vor Veröffentlichung, 1 Woche vor Veröffentlichung, 1 Woche nach Veröffentlichung) und für die beiden Zeiträume vor und nach der Veröffentlichung das Sentiment analysiert, also sprich, ob der Tweet positiv, negativ oder neutral gefasst ist. Für die Sentiment-Analyse durfte ich mir noch einmal 5.500 Tweets durchlesen.

255 unabhängige Variablen und 288 lineare Regressionsmodelle

Insgesamt kam ich demnach auf 255 unabhängige Variablen sowie die drei Verkaufsvariablen. Bei 25 Alben macht das knapp 6.500 Datenpunkte, die mit linearen Regressionsmodellen mit der Statistiksoftware IBM SPSS 21 untersucht wurden. Insgesamt wurden 288 unterschiedliche Modelle berechnet, je nach dem, welche Daten man zugrunde legt.

Die Ergebnisse im Überblick: Die Reichweite ist die verlässlichste Datenquelle, Daten auf Tagesbasis sind deutlich besser als auf Wochenbasis, Modell 2a und 2b haben die besten Ergebnisse hervorgebracht und die Sentiment-Analyse ist unwichtig.

95-prozentige Genauigkeit

Beobachtet man die tägliche Reichweite der relevanten Tweets zwei Wochen vor Veröffentlichung eines Albums, die Künstlernamen und Albumtitel enthalten, kann man die Verkaufszahlen der nächsten drei Verkaufsperioden mit 95-prozentiger Genauigkeit prognostizieren.

Zugegeben: Ich war selbst von der Zuverlässigkeit überrascht. Ein Grund für die hohe Korrelation dürfte sein, dass ich im Gegensatz zu den meisten Studien nicht das Volumen der Tweets sondern die Reichweite betrachte.

Reichweiten-Analyse bringt Vorteile mit sich

Das hat zwei entscheidende Vorteile: Zum einen wird der Einfluss eines Twitter-Users berücksichtigt. Wenn Hans Meier und der „Rolling Stone“ ein Album empfehlen, sind das zwei Tweets von zwei Usern. Der „Rolling Stone“ hat aber deutlich mehr Follower, wird also auch einen größeren Einfluss auf die Verkaufszahlen haben.

Zum anderen umgeht man somit das Problem, dass es auf Twitter schätzungsweise 20 Millionen Fake-Accounts gibt. Auch ich habe in den Stichproben und den 23.500 Tweets, die ich manuell gelesen habe, Auffälligkeiten gesehen, wo der Verdacht nahe liegt, dass es sich um Fake-Profile handelt. Die haben aber eine zu vernachlässigende Reichweite und beeinflussen daher nicht das Ergebnis.

Modell hat Einschränkungen

Natürlich hat meine Studie auch Einschränkungen. Alben, die „Romance“oder „Best Of“ hießen habe ich von vornherein ausgeschlossen. Auch bei Bands die „The Saturdays“ heißen, hat das Modell Schwierigkeiten.

Das zweite Problem ist, dass mein Studienergebnis zwar interessant ist, aber aus Marketing-Sicht wenig nützlich, denn die Marketing-Ausgaben werden viel früher geplant.

Ursprünglich war geplant, dass ich das Twitter-Volumen rund um die Single-Auskopplungen beobachten wollte, doch aus verschiedenen Gründen konnte ich dieses Studiendesign nicht realisieren.

Das dritte Problem: Korrelation ist nicht Kausalität. Nur weil ein Marketing-Manager es schafft, dass viele User über ein Album tweeten, werden die Absatzzahlen vermutlich nicht steigen. Das muss man im Hinterkopf behalten.

Big Data-Analysen haben Potential

Soweit ich weiß ist das die erste Studie, die Musikverkäufe mithilfe von Twitter prognostiziert. Der Grundstein ist sozusagen gelegt und besonders die Erkenntnis, dass die Reichweite aussagekräftiger als andere Daten ist, kann meiner Meinung nach auch für andere Studien hilfreich sein.

Nichtsdestotrotz ist es wichtig, weiter zu forschen und zu schauen, ob man Modelle entwickeln kann, die auch tatsächlich bei der Marketing-Planung helfen können.

Dennoch: Ich bin nun auch aus eigener Erfahrung von dem Potential von Big Data-Analysen überzeugt!

Update:

Es gab ja ein paar Fragen, wie die beiden Alben mit den größten Verkaufszahlen (Bocelli und Tim McGraw) die Korrelation beeinflussen würden. Leser Stefan Hahmann von der TU Dresden hat auch noch mal mit einem anderen Programm nachgerechnet und ist auf eine ebenso hohe Korrelation gekommen. Werden die drei größten Outlier weggelassen, sinkt die Korrelation natürlich, ist aber immer noch nachweisbar. Da es sich bei meiner Studie aber nur um eine kleine Stichprobe handelt, vermute ich, dass die Outlier bei einer größeren Analyse normalisiert werden – bei meinem Fazit bleibe ich also: Es muss mehr geforscht werden. Vielen Dank noch mal an Stefan Hahmann.

Bild: Robert Vossen

Bondora

Anzeige

STELLENANZEIGEN
BASIC thinking Freiberuflicher Redakteur (m/w/d)
BASIC thinking GmbH in Home Office
Praktikant Marktforschung Consumer Insights &...
Ferrero MSC GmbH & Co. KG in Frankfurt/M.
Praktikum (m/w/d) Social Media & Influenc...
ARTDECO cosmetic GmbH in Karlsfeld
UX Designer (all genders welcome)
Rosen Technology & Research Cente... in Lingen/Osnab...
Influencer & Paid Social Media Marketing ...
ARTDECO cosmetic GmbH in Karlsfeld
Senior Digital Marketing Manager (all genders)
EO Executives in Großraum Frankfurt am Main

Du willst solche Themen nicht verpassen? Mit dem BASIC thinking UPDATE, deinem täglichen Tech-Briefing, starten über 10.000 Leser jeden Morgen bestens informiert in den Tag. Jetzt kostenlos anmelden:

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

THEMEN:Wissenschaft
Teile diesen Artikel
Facebook Flipboard Whatsapp Whatsapp LinkedIn Threads Bluesky Email
vonRobert Vossen
Folgen:
Robert Vossen hat erst Los Angeles den Rücken gekehrt und dann leider auch BASIC thinking. Von 2012 bis 2013 hat er über 300 Artikel hier veröffentlicht.

Anzeige

EMPFEHLUNG
Bitpanda x pepe
1 Million PEPE Coins geschenkt: So sicherst du dir den Krypto-Bonus bei Bitpanda
Anzeige MONEY
UPDATE – DEIN TECH-BRIEFING

Jeden Tag bekommen 10.000+ Abonnenten von uns die wichtigsten Tech-News direkt in die Inbox. Abonniere jetzt dein kostenloses Tech-Briefing:

Mit deiner Anmeldung bestätigst du unsere Datenschutzerklärung

LESEEMPFEHLUNGEN

Pomeloschalen als Stromquelle
GREENTECH

Als Stromquelle: Forscher entwickeln Nanogenerator aus Pomeloschalen

Grünes Nickel für die Energiewende
GREEN

84 Prozent weniger CO2: Grünes Nickel soll Energiewende vorantreiben

Roboter Pflanzen bestäuben
TECH

Wegen Pestiziden und Klimawandel: Mini-Roboter sollen Pflanzen bestäuben

Strom aus Regen Dach Kraftwerk Energie
GREENTECH

Strom aus Regen: Forscher entwickeln Mini-Kraftwerk für Hausdächer

Biegsame flexible Solarzellen, Energie, Nachhaltigkeit
GREENTECH

Biegsame Solarzellen brechen Rekord – und könnte klassische Module übertreffen

Lithium-Batterie Lebensdauer
GREENTECH

Lithium-Batterien: Forscher verlängern Lebensdauer um das 19-Fache

Mehr anzeigen
Folge uns:
© 2003 - 2025 BASIC thinking GmbH
  • Über uns
  • Mediadaten
  • Impressum
  • Datenschutz
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?