Datum
2020Autor
Müller, JürgenSchlagwort
004 Informatik Data MiningMaschinelles LernenEmpfehlungssystemNamengebungNamenkundePrognoseData ScienceStatistische AnalyseMetadata
Zur Langanzeige
Dissertation
Analyzing Given Names
Analyzing Given Names
Exploring Potentials for a Personalized Name Discovery on Nameling.net
Zusammenfassung
Computer science has evolved so much that it influences almost every part of human live. A particularly personal part of human live is the selection of a given name for a newborn baby. The name discovery service Nameling is our way to help expectant parents with this decision. It is a web service that helps parents to find a given name for their newborn baby. We want to further improve the user experience of Nameling by personalizing its name results for the current user. We deem this important, because the selection of a given name itself is a very important and difficult one. In order to improve Nameling, we explore three promising areas that could benefit Nameling: Inferring the gender of the requested name to tailor the results to the need of the parents, using information about the popularity of names for the same purpose, and adding a name recommender to add more diversity to the returned name lists.
The first area of this thesis explores the possibilities to infer the gender of a given name based on a set of characteristics like its number of vowels. The gender is obviously an important part in the selection of a given name of a newborn baby. Inferring the gender of a requested name on Nameling is useful as it can help understand the gender of interest the current user is looking for. Nameling can then boost the ranking of names from the inferred gender (e.g., ranking names from that gender higher). Therefore, we present an automatic gender inference method for the written word of a given name and show its utility by improving the gender inference of Twitter users.
The second area explores the possibilities of popularity information. There is evidence that parents prefer names with a certain level of popularity. Further, there have been reports that parents use the names of their children to signal their own ideology—or more precisely, the ideological traits they associate with a given name. Both information can be used to personalize the user experience on Nameling by re-ranking the list of names based on the observed expectations. We test the usefulness of popularity information in two prediction experiments: The first predicts the future popularity of given names, while the second predicts the future popularity of Twitter users using the self-reported real name.
The last area covers recommendation methods for given names. We present the results from the discovery challenge that we conducted in order to find a good recommendation algorithm for Nameling. We then take the submitted recommendations and try to find a good hybridization method that can further improve the quality of the submitted recommendations.
The experiments in this thesis demonstrate the usefulness of each of our three areas. We compare our methods against contending methods that could be used to solve the presented issues otherwise. The key difference of our methods is that they draw from both computer science and onomastics, which gives them an advantage compared to the contending methods. Our findings can be used to improve the user experience of Nameling and to motivate further research on the edge between computer science and onomastics.
The first area of this thesis explores the possibilities to infer the gender of a given name based on a set of characteristics like its number of vowels. The gender is obviously an important part in the selection of a given name of a newborn baby. Inferring the gender of a requested name on Nameling is useful as it can help understand the gender of interest the current user is looking for. Nameling can then boost the ranking of names from the inferred gender (e.g., ranking names from that gender higher). Therefore, we present an automatic gender inference method for the written word of a given name and show its utility by improving the gender inference of Twitter users.
The second area explores the possibilities of popularity information. There is evidence that parents prefer names with a certain level of popularity. Further, there have been reports that parents use the names of their children to signal their own ideology—or more precisely, the ideological traits they associate with a given name. Both information can be used to personalize the user experience on Nameling by re-ranking the list of names based on the observed expectations. We test the usefulness of popularity information in two prediction experiments: The first predicts the future popularity of given names, while the second predicts the future popularity of Twitter users using the self-reported real name.
The last area covers recommendation methods for given names. We present the results from the discovery challenge that we conducted in order to find a good recommendation algorithm for Nameling. We then take the submitted recommendations and try to find a good hybridization method that can further improve the quality of the submitted recommendations.
The experiments in this thesis demonstrate the usefulness of each of our three areas. We compare our methods against contending methods that could be used to solve the presented issues otherwise. The key difference of our methods is that they draw from both computer science and onomastics, which gives them an advantage compared to the contending methods. Our findings can be used to improve the user experience of Nameling and to motivate further research on the edge between computer science and onomastics.
Die Informatik hat sich rasant weiterentwickelt, so sehr das sie auf nahezu jeden Bereich menschlichen Lebens Einfluss nimmt. Ein besonders persönlicher Bereich ist die Wahl eines Vornamens für das eigene Kind. Die Namenssuchmaschine Nameling ist unser Beitrag, um werdende Eltern bei dieser Entscheidung zu unterstützen. Nameling ist eine Internetseite, die Eltern bei der Namensfindung hilft indem sie ihnen Namensvorschläge macht. Wir wollen die User Experience von Nameling weiter verbessern, indem wir Nameling personalisieren. Wir glauben, dass das den Dienst deutlich attraktiver machen wird, da die Wahl eines Vornamens eine sehr schwerwiegende Entscheidung ist. Entsprechend erforschen wir drei vielversprechenden Themenbereiche: Die Geschlechtsbestimmung des gesuchten Namens um die Trefferliste an die Erwartungen der Eltern anzupassen, die Nutzung von Beliebtheitsinformationen aus gleichem Grund und der Einsatz eines Empfehlungssystemen, um den angezeigten Namenslisten vielfältiger zu gestallten.
Der erste Teil dieser Dissertation beschäftigt sich mit Verfahren zur Geschlechtsbestimmung von Vornamen basierend auf einer Reihe von Merkmalen wie der Anzahl der Vokale. Das Geschlecht ist offensichtlich ein wesentlicher Faktor bei der Namenswahl. Die Bestimmung des Geschlechts eines gesuchten Namens auf Nameling ist sinnvoll, da sie dazu beitragen kann, das gewünschte Geschlecht des Interesses des jeweiligen Nutzers zu erfassen. Zu erkennen, nach welchem Geschlecht die Eltern suchen, ist hilfreich, um die angezeigten Namenslisten daraufhin zu optimieren (z.~B.: Indem Namen dieses Geschlechts höher platziert werden). Deshalb stellen wir eine automatische Geschlechtsbestimmungsmethode für Vornamen vor, die auf Basis der Buchstaben des Namens arbeitet. Wir zeigen ihren Mehrwert durch die Optimierung einer bestehenden Geschlechtsbestimmungsmethode für Twitter-Nutzer.
Der zweite Teil dieser Dissertatoin widmet sich den Möglichkeiten von Beliebtheitsdaten. Es gibt Anhaltspunkte dafür, dass Eltern feste Vorstellungen über die Beliebtheit von Namen haben. Ferner gibt es Arbeiten die nahelegen, dass Eltern die Namen ihrer Kinder dazu nutzen, um ihre eigene Ideologie zu signalisieren---oder genauer gesagt, die ideologischen Züge, die sie in diesen Namen sehen. Beides kann dazu genutzt werden Nameling weiter zu personalisieren, durch eine Neusortierung der angezeigten Namensliste basierten auf den ermittelten Erwartungen der Eltern. Wir zeigen den Mehrwert diese Beliebtheitsdaten mittels zweiter Vorhersage-Experimente: Das Erste sagt die künftige Verbreitung von Vornamen voraus, während das Zweite mithilfe der angezeigten Namen die künftige Beliebtheit von Twitter-Nutzern vorhersagt.
Der letzte Teil dieser Dissertation befasst sich mit Empfehlungsverfahren für Vornamen. Wir stellen die Ergebnisse der Discovery Challenge vor, die wir zur Findung eines Empfehlungsalgorithmus für Nameling durchgeführt haben. Wir nutzen die eingereichten Empfehlungen anschließend um eine Hybridisierungsmethode zu entwickelt, welche die resultierenden Namenslisten weiter verbessert.
Die Experimente dieser Arbeit demonstrieren den Mehrwert eines jeden Teils. Wir haben alle Methoden mit Alternativen verglichen, die sonst zur Lösung der dargestellten Fragestellungen genutzt werden könnten. Das wesentliche Unterscheidungsmerkmal unserer Methoden ist, dass sie sowohl Erkenntnisse aus der Informatik als auch aus der Onomastik nutzen, was ihnen gegenüber den Alternativverfahren einen Vorteil verschafft. Unsere Ergebnisse können dazu genutzt werden, die User Experience von Nameling zu steigern und können weitere Forschungsarbeiten an der Schnittstelle von Informatik und Onomastik stimulieren.
Der erste Teil dieser Dissertation beschäftigt sich mit Verfahren zur Geschlechtsbestimmung von Vornamen basierend auf einer Reihe von Merkmalen wie der Anzahl der Vokale. Das Geschlecht ist offensichtlich ein wesentlicher Faktor bei der Namenswahl. Die Bestimmung des Geschlechts eines gesuchten Namens auf Nameling ist sinnvoll, da sie dazu beitragen kann, das gewünschte Geschlecht des Interesses des jeweiligen Nutzers zu erfassen. Zu erkennen, nach welchem Geschlecht die Eltern suchen, ist hilfreich, um die angezeigten Namenslisten daraufhin zu optimieren (z.~B.: Indem Namen dieses Geschlechts höher platziert werden). Deshalb stellen wir eine automatische Geschlechtsbestimmungsmethode für Vornamen vor, die auf Basis der Buchstaben des Namens arbeitet. Wir zeigen ihren Mehrwert durch die Optimierung einer bestehenden Geschlechtsbestimmungsmethode für Twitter-Nutzer.
Der zweite Teil dieser Dissertatoin widmet sich den Möglichkeiten von Beliebtheitsdaten. Es gibt Anhaltspunkte dafür, dass Eltern feste Vorstellungen über die Beliebtheit von Namen haben. Ferner gibt es Arbeiten die nahelegen, dass Eltern die Namen ihrer Kinder dazu nutzen, um ihre eigene Ideologie zu signalisieren---oder genauer gesagt, die ideologischen Züge, die sie in diesen Namen sehen. Beides kann dazu genutzt werden Nameling weiter zu personalisieren, durch eine Neusortierung der angezeigten Namensliste basierten auf den ermittelten Erwartungen der Eltern. Wir zeigen den Mehrwert diese Beliebtheitsdaten mittels zweiter Vorhersage-Experimente: Das Erste sagt die künftige Verbreitung von Vornamen voraus, während das Zweite mithilfe der angezeigten Namen die künftige Beliebtheit von Twitter-Nutzern vorhersagt.
Der letzte Teil dieser Dissertation befasst sich mit Empfehlungsverfahren für Vornamen. Wir stellen die Ergebnisse der Discovery Challenge vor, die wir zur Findung eines Empfehlungsalgorithmus für Nameling durchgeführt haben. Wir nutzen die eingereichten Empfehlungen anschließend um eine Hybridisierungsmethode zu entwickelt, welche die resultierenden Namenslisten weiter verbessert.
Die Experimente dieser Arbeit demonstrieren den Mehrwert eines jeden Teils. Wir haben alle Methoden mit Alternativen verglichen, die sonst zur Lösung der dargestellten Fragestellungen genutzt werden könnten. Das wesentliche Unterscheidungsmerkmal unserer Methoden ist, dass sie sowohl Erkenntnisse aus der Informatik als auch aus der Onomastik nutzen, was ihnen gegenüber den Alternativverfahren einen Vorteil verschafft. Unsere Ergebnisse können dazu genutzt werden, die User Experience von Nameling zu steigern und können weitere Forschungsarbeiten an der Schnittstelle von Informatik und Onomastik stimulieren.
Zitieren
@phdthesis{doi:10.17170/kobra-202008181593,
author={Müller, Jürgen},
title={Analyzing Given Names},
school={Kassel, Universität Kassel, Fachbereich Elektrotechnik / Informatik},
year={2020}
}
0500 Oax 0501 Text $btxt$2rdacontent 0502 Computermedien $bc$2rdacarrier 1100 2020$n2020 1500 1/eng 2050 ##0##http://hdl.handle.net/123456789/11707 3000 Müller, Jürgen 4000 Analyzing Given Names / Müller, Jürgen 4030 4060 Online-Ressource 4085 ##0##=u http://nbn-resolving.de/http://hdl.handle.net/123456789/11707=x R 4204 \$dDissertation 4170 5550 {{Data Mining}} 5550 {{Maschinelles Lernen}} 5550 {{Empfehlungssystem}} 5550 {{Namengebung}} 5550 {{Namenkunde}} 5550 {{Prognose}} 5550 {{Data Science}} 5550 {{Statistische Analyse}} 7136 ##0##http://hdl.handle.net/123456789/11707
2020-08-19T16:45:25Z 2020-08-19T16:45:25Z 2020 doi:10.17170/kobra-202008181593 http://hdl.handle.net/123456789/11707 eng Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ Data Mining Machine Learning Recommender Systems Onomastics Prediction Forecast Data Science Statistical Analysis 004 Analyzing Given Names Dissertation Computer science has evolved so much that it influences almost every part of human live. A particularly personal part of human live is the selection of a given name for a newborn baby. The name discovery service Nameling is our way to help expectant parents with this decision. It is a web service that helps parents to find a given name for their newborn baby. We want to further improve the user experience of Nameling by personalizing its name results for the current user. We deem this important, because the selection of a given name itself is a very important and difficult one. In order to improve Nameling, we explore three promising areas that could benefit Nameling: Inferring the gender of the requested name to tailor the results to the need of the parents, using information about the popularity of names for the same purpose, and adding a name recommender to add more diversity to the returned name lists. The first area of this thesis explores the possibilities to infer the gender of a given name based on a set of characteristics like its number of vowels. The gender is obviously an important part in the selection of a given name of a newborn baby. Inferring the gender of a requested name on Nameling is useful as it can help understand the gender of interest the current user is looking for. Nameling can then boost the ranking of names from the inferred gender (e.g., ranking names from that gender higher). Therefore, we present an automatic gender inference method for the written word of a given name and show its utility by improving the gender inference of Twitter users. The second area explores the possibilities of popularity information. There is evidence that parents prefer names with a certain level of popularity. Further, there have been reports that parents use the names of their children to signal their own ideology—or more precisely, the ideological traits they associate with a given name. Both information can be used to personalize the user experience on Nameling by re-ranking the list of names based on the observed expectations. We test the usefulness of popularity information in two prediction experiments: The first predicts the future popularity of given names, while the second predicts the future popularity of Twitter users using the self-reported real name. The last area covers recommendation methods for given names. We present the results from the discovery challenge that we conducted in order to find a good recommendation algorithm for Nameling. We then take the submitted recommendations and try to find a good hybridization method that can further improve the quality of the submitted recommendations. The experiments in this thesis demonstrate the usefulness of each of our three areas. We compare our methods against contending methods that could be used to solve the presented issues otherwise. The key difference of our methods is that they draw from both computer science and onomastics, which gives them an advantage compared to the contending methods. Our findings can be used to improve the user experience of Nameling and to motivate further research on the edge between computer science and onomastics. Die Informatik hat sich rasant weiterentwickelt, so sehr das sie auf nahezu jeden Bereich menschlichen Lebens Einfluss nimmt. Ein besonders persönlicher Bereich ist die Wahl eines Vornamens für das eigene Kind. Die Namenssuchmaschine Nameling ist unser Beitrag, um werdende Eltern bei dieser Entscheidung zu unterstützen. Nameling ist eine Internetseite, die Eltern bei der Namensfindung hilft indem sie ihnen Namensvorschläge macht. Wir wollen die User Experience von Nameling weiter verbessern, indem wir Nameling personalisieren. Wir glauben, dass das den Dienst deutlich attraktiver machen wird, da die Wahl eines Vornamens eine sehr schwerwiegende Entscheidung ist. Entsprechend erforschen wir drei vielversprechenden Themenbereiche: Die Geschlechtsbestimmung des gesuchten Namens um die Trefferliste an die Erwartungen der Eltern anzupassen, die Nutzung von Beliebtheitsinformationen aus gleichem Grund und der Einsatz eines Empfehlungssystemen, um den angezeigten Namenslisten vielfältiger zu gestallten. Der erste Teil dieser Dissertation beschäftigt sich mit Verfahren zur Geschlechtsbestimmung von Vornamen basierend auf einer Reihe von Merkmalen wie der Anzahl der Vokale. Das Geschlecht ist offensichtlich ein wesentlicher Faktor bei der Namenswahl. Die Bestimmung des Geschlechts eines gesuchten Namens auf Nameling ist sinnvoll, da sie dazu beitragen kann, das gewünschte Geschlecht des Interesses des jeweiligen Nutzers zu erfassen. Zu erkennen, nach welchem Geschlecht die Eltern suchen, ist hilfreich, um die angezeigten Namenslisten daraufhin zu optimieren (z.~B.: Indem Namen dieses Geschlechts höher platziert werden). Deshalb stellen wir eine automatische Geschlechtsbestimmungsmethode für Vornamen vor, die auf Basis der Buchstaben des Namens arbeitet. Wir zeigen ihren Mehrwert durch die Optimierung einer bestehenden Geschlechtsbestimmungsmethode für Twitter-Nutzer. Der zweite Teil dieser Dissertatoin widmet sich den Möglichkeiten von Beliebtheitsdaten. Es gibt Anhaltspunkte dafür, dass Eltern feste Vorstellungen über die Beliebtheit von Namen haben. Ferner gibt es Arbeiten die nahelegen, dass Eltern die Namen ihrer Kinder dazu nutzen, um ihre eigene Ideologie zu signalisieren---oder genauer gesagt, die ideologischen Züge, die sie in diesen Namen sehen. Beides kann dazu genutzt werden Nameling weiter zu personalisieren, durch eine Neusortierung der angezeigten Namensliste basierten auf den ermittelten Erwartungen der Eltern. Wir zeigen den Mehrwert diese Beliebtheitsdaten mittels zweiter Vorhersage-Experimente: Das Erste sagt die künftige Verbreitung von Vornamen voraus, während das Zweite mithilfe der angezeigten Namen die künftige Beliebtheit von Twitter-Nutzern vorhersagt. Der letzte Teil dieser Dissertation befasst sich mit Empfehlungsverfahren für Vornamen. Wir stellen die Ergebnisse der Discovery Challenge vor, die wir zur Findung eines Empfehlungsalgorithmus für Nameling durchgeführt haben. Wir nutzen die eingereichten Empfehlungen anschließend um eine Hybridisierungsmethode zu entwickelt, welche die resultierenden Namenslisten weiter verbessert. Die Experimente dieser Arbeit demonstrieren den Mehrwert eines jeden Teils. Wir haben alle Methoden mit Alternativen verglichen, die sonst zur Lösung der dargestellten Fragestellungen genutzt werden könnten. Das wesentliche Unterscheidungsmerkmal unserer Methoden ist, dass sie sowohl Erkenntnisse aus der Informatik als auch aus der Onomastik nutzen, was ihnen gegenüber den Alternativverfahren einen Vorteil verschafft. Unsere Ergebnisse können dazu genutzt werden, die User Experience von Nameling zu steigern und können weitere Forschungsarbeiten an der Schnittstelle von Informatik und Onomastik stimulieren. open access Müller, Jürgen 2020-03-05 xxiv, 206 Seiten Kassel, Universität Kassel, Fachbereich Elektrotechnik / Informatik Stumme, Gerd (Prof. Dr.) Data Mining Maschinelles Lernen Empfehlungssystem Namengebung Namenkunde Prognose Data Science Statistische Analyse Exploring Potentials for a Personalized Name Discovery on Nameling.net publishedVersion false
Die folgenden Lizenzbestimmungen sind mit dieser Ressource verbunden: