In den letzten zehn Jahren wurde eine große Menge an Daten über menschliche Interaktionen verfügbar, die entweder aus sozialen Online-Netzwerken stammen oder von tragbaren Geräten erfasst wurden. Die klassischen Sozialwissenschaften bieten keine Instrumente für die Durchführung datengetriebener Forschung mit solchen Daten. Die computerorientierte Sozialwissenschaft (Computational Social Science) versucht, diese Lücke zu schließen, indem sie Methoden für Data-Mining und maschinelles Lernen zur Nutzung der Daten aus sozialen Netzwerken entwickelt. In diesem Kontext erforschen wir in dieser Dissertation verschiedene Verfahren zur Untersuchung sozialer Phänomene, indem wir Data-Mining-Techniken auf Daten aus sozialen Netzwerken anwenden. Wir nutzen dabei zwei verschiedene Arten von Daten: Zum einen handelt es sich um Daten aus Netzwerken der Face-to-Face-Interaktion, die mithilfe der RFID-Technologie gesammelt wurden. Diese Netzwerke ermöglichen es Forschenden, menschliche Interaktionen und soziale Phänomene wie die Community-Bildung auf Mikroebene zu erforschen. Zum anderen stammen die Daten aus sozialen Online-Netzwerken und Medien. Anhand dieser Daten lassen sich soziale Phänomene in größerem Umfang erforschen, beispielsweise Änderungen in der Mobilität der Bevölkerung bei Naturkatastrophen. Es ist wichtig, beide Datentypen zu berücksichtigen, um ein vollständiges Bild des Data-Minings in sozialen Netzwerken für die Analyse sozialer Phänomene erstellen zu können.
Wir strukturieren die Arbeit in Anlehnung an den Cross-Industry Standard Process for Data Mining (CRISP-DM). Zuerst analysieren wir während der Datenverständnisphase von CRISP-DM Netzwerke der Face-to-Face-Interaktion und dabei insbesondere den Prozess der Community-Bildung. Zudem validieren wir, ob soziale Online-Netzwerke als Proxy für Offline-Aktivitäten dienen können. Die nachfolgenden Phasen der Datenvorbereitung, Modellierung und Evaluierung von CRISP-DM werden in drei Studien unterschiedlicher Art vorgestellt. Auf diese Weise demonstrieren wir den Umfang dessen, was mit der Analyse von sozialen Netzwerken möglich ist, um soziale Phänomene und Aktivitäten zu verstehen. Die erste Studie, die in Zusammenarbeit mit SozialwissenschaftlerInnen entstanden ist, stellt dar, wie die Analyse von Netzwerken der Face-to-Face-Interaktion soziologische Untersuchungen weiterentwickeln kann. In der zweiten Studie, die zusammen mit dem Pulse Lab der Vereinten Nationen in Jakarta durchgeführt wurde, zeigen wir, wie Waldbrände in sozialen Medien diskutiert werden und wie Veränderungen in der Mobilität der Bevölkerung mithilfe der Daten aus sozialen Medien beobachtet werden können. Im Rahmen der dritten Studie präsentieren wir eine Verbesserung des k-Nearest-Neighbor-Algorithmus für die Daten, die geografisch nicht gleich verteilt sind (ein Merkmal, das häufig bei Daten aus sozialen Netzwerken vorkommt). Die drei Studien zeigen unterschiedliche Möglichkeiten für die Untersuchung sozialer Netzwerke und die Entwicklung von Anwendungen, die auf deren Daten basieren. Zum Schluss stellen wir bei der Diskussion der Bereitstellungsphase von CRISP-DM die Ubicon-Plattform vor, die wir genutzt haben, um Daten zu sammeln und einige der Ergebnisse aufzubereiten.
Insgesamt zeigt die Dissertation verschiedene Ansätze zur Untersuchung sozialer Phänomene mithilfe von Data-Mining und Techniken maschinellen Lernens, die auf Daten sozialer Netzwerke angewendet werden. Die präsentierten Ansätze können auf diverse Weise eingesetzt werden, von praktischen Anwendungen bis hin zu der theoretischen soziologischen Arbeit. Die Erkenntnisse aus dieser Arbeit sind relevant für Forschende aus unterschiedlichen Disziplinen (vor allem aus Informatik und Soziologie), die sich für Methoden zum Umgang mit Daten aus sozialen Netzwerken interessieren.
@phdthesis{doi:10.17170/kobra-20190815628, author ={Kibanov, Mark}, title ={Social Network Mining for Analysis of Social Phenomena}, keywords ={004 and Data Mining and Maschinelles Lernen and Social Media and Interpersonale Kommunikation and Netzwerkanalyse }, copyright ={http://creativecommons.org/licenses/by-sa/3.0/de/}, language ={en}, school={Kassel, Universität Kassel, Fachbereich Elektrotechnik / Informatik}, year ={2019} }