Pluto Open Project (1)

Introductie van auteursnaam ondubbelzinnig

Hallo, het is het datamining-team van Pluto Network.

We hebben in eerdere berichten onze ideeën en hindernissen gedeeld bij het bouwen van een gedecentraliseerd platform voor wetenschappelijke communicatie om bestaande obstakels in onderzoeksomgevingen te verstoren.
Voordat enkele ideeën werden geïmplementeerd, dacht het team dat de records en prestaties van academici uit het verleden goed beheerd en berekend moesten worden. Momenteel worden academische databases voornamelijk gebruikt voor het doorzoeken van wetenschappelijke artikelen, dus ze worden hoofdzakelijk beheerd op individuele artikelen in plaats van auteurs, waarbij geen hoge systematische normen worden bereikt. Veel uitdagingen komen voort uit het feit dat de publicatie-informatie wordt verzameld uit tienduizenden verschillende tijdschriften en uitgevers, die elk een ander beleid hanteren bij het omgaan met deze informatie.

In de praktijk worden publicaties van een enkele onderzoeker vaak opgesplitst in meerdere auteursidentificaties (gepubliceerd in verschillende tijdschriften, dus met verschillende gegevensbronnen), en publicaties van verschillende auteurs worden samengevoegd tot één auteursidentificatie. Het is moeilijk om onderzoeksresultaten te onderscheiden door auteurs van vergelijkbare namen, omdat de meeste gegevens op hun namen zijn gebaseerd zonder enig standaard, universeel identificatiesysteem. We hebben verschillende andere problemen in onze database geïdentificeerd, zoals naamsveranderingen bij het huwelijk, meerdere naamrepresentaties, afkortingen in namen, inconsistente representatie, enzovoort.

Pluto Network gebruikt enkele dataminingtechnieken om een ​​doorbraak te vinden in het matchen van afgelopen academische objecten (d.w.z. papers) met geschikte individuele onderzoeker, en om dezelfde methodologie toe te passen op toekomstige input. We noemen dit probleem "Author Name Disambiguation", en met aanstaande reeksen berichten zullen we in detail de uitdagingen beschrijven waarmee we worden geconfronteerd en de benaderingen die we nemen.

https://scinapse.io/authors/2076473182 / https://scinapse.io/authors/2777878377

Voordat we meer verkennen

Hierna volgen enkele uitdagingen in het ondubbelzinnig maken van auteursnamen en enkele van onze zorgen

  • Er is niet genoeg aantal gevallen waarin 'echte waarde' bekend is. (dwz 100% zekerheid dat een bepaald paar auteurs in feite dezelfde persoon zijn). Daarom benaderen we in een vroeg stadium Unsupervised Learning, en als we genoeg trainingsgegevens hebben met de juiste labels, proberen we Supervised Learning met de dataset.
  • Gegevens zijn gevoeliger voor fout-positieve fouten dan voor fout-negatieve fouten. Dat wil zeggen, het onjuist samenvoegen van verschillende personen in dezelfde identifier kan kritischer zijn dan het missen van gesplitste identiteiten die moeten worden samengevoegd. Daarom moeten we misschien conservatieve criteria met hoge nauwkeurigheidseisen hanteren bij het samenvoegen van auteurs.
  • Er zijn te veel auteursidentiteiten om hebzuchtige benaderingen op elk paar te proberen. (++ 100 miljoen) We maken "blokken" van auteurs met hun achternamen.
  • In tegenstelling tot de gebruikelijke problemen in Kaggle, zijn ingangen en uitgangen niet gedefinieerd. Het doel is niet om waarden in een bepaalde kolom te voorspellen, maar om dezelfde objecten te identificeren wanneer ze als verschillend worden opgeslagen en om verschillende objecten te onderscheiden wanneer ze als één worden opgeslagen, waarvoor taken met een zeer hoge complexiteit zijn vereist. Voorgaande studies hebben generieke machine learning-modellen zoals Random Forest gebruikt met specifieke datasets. Onder verwijzing naar deze eerdere proeven, zullen we verdere technieken omarmen, zoals blokkeren, clusteren, linkanalyse en etc.
  • Kan niet elk probleem in één keer oplossen. In plaats van verkeerd samengevoegde auteurs te splitsen, zullen we ons concentreren op het correct samenvoegen van gesplitste auteurs waar relatief meer gegevens beschikbaar zijn.

Pogingen gedaan

Zoals eerder vermeld, hebben we auteurs met hun achternamen geblokkeerd en hebben we volgers binnen die "achternaamblokken" geprobeerd.

Criteria1: Zelfcitatie
- Citatie wordt gebruikt als de belangrijkste informatiebron om de impact van individuele artikelen te meten. Veel academici citeren dus, samen met enkele andere redenen, vaak hun eigen studies uit het verleden. Met deze achtergrond geloofden we dat als de auteurs van een citerend artikel en het geciteerde artikel veel overeenkomst vertonen in hun namen, ze een grote mogelijkheid hebben om dezelfde persoon te zijn.
- Als bijvoorbeeld een artikel geschreven door "Taylor Swift" een artikel citeert dat is geschreven door "T. Swift ', het is zeer waarschijnlijk dat' T. Swift 'is een afkorting van' Taylor Swift 'en beide artikelen zijn geschreven door dezelfde persoon, Taylor Swift.
- Op basis van dit idee was onze database voor elk achternaamblok gestructureerd in een netwerk met behulp van Python NetworkX-bibliotheek, auteurs als knooppunten en citaten als randen. (typische citatiegrafieken zouden papieren als knooppunten instellen). Kijkend naar de subfoto's van elke achternaam, werden verschillende identieke auteurs gevonden.

Criteria2: Co-auteurs
- Vergelijkbaar met de logische gevolgtrekking in het bovenstaande voorbeeld bij zelfcitatie, zouden verschillende auteursidentiteiten met vergelijkbare namen en vergelijkbare co-auteursprofielen een grote kans hebben om dezelfde persoon te zijn.
- Als bijvoorbeeld een artikel van Adam Smith werd geschreven door Taylor Swift en een ander artikel van Adam Smith werd geschreven door T. J. Swift, zouden we geloven dat het zeer waarschijnlijk is dat T. J. Swift en Taylor Swift dezelfde persoon zijn.
- Om deze gevolgtrekking te onderzoeken, hebben we lijsten voor co-auteurs voor elke auteur gemaakt, hun paarsgewijze overeenkomsten berekend en verschillende gevallen gevonden waarin ze in feite dezelfde auteurs leken te zijn.

https://scinapse.io/authors/2131370184 / https://scinapse.io/authors/2691289941

beperkingen

Hoewel we uit bovenstaande onderzoeken veel succesvolle gevallen hebben gevonden, stuitten we tegelijkertijd op verschillende beperkingen. Deze omvatten niet alleen problemen van de gebruikte methoden, maar kwamen ook voort uit de vereiste van voorbewerking van gegevens.

1. We weten het nooit
Zelfs nadat we hebben gecontroleerd dat twee auteursidentiteiten dezelfde achternamen, vergelijkbare naamrepresentaties, co-auteurs en onderlinge citaatrelaties hebben, kunnen we er nog steeds niet zeker van zijn dat ze dezelfde persoon vertegenwoordigen. Het is nog erger wanneer hun namen worden afgekort tot initialen. We proberen onze eigen criteria te bedenken om te bepalen of twee hetzelfde zijn. (nogmaals, dit probleem is erg gevoelig voor valse positieven)

We kunnen er niet zeker van zijn dat ze dezelfde persoon zijn

2. Misvormde gegevens
Veel records (artikelen) bleken hun referenties te missen (++ 10 miljoen). Kijkend naar enkele willekeurige steekproeven, zouden er veel gevuld moeten zijn met referenties. We doen ons best om oplossingen te bedenken.
We gebruiken het aantal woorden in samenvattingen om verkeerd ingedeelde gegevens uit te filteren. In het geval van papieren die in het Chinees zijn geschreven, werkt woordentelling nauwelijks. In het geval van papieren die zijn geïndexeerd door het scannen van hun documenten, zijn de afstanden vaak verbroken (vaak vanwege een fout bij het vastleggen van regeleinden). We zijn op zoek naar meer gevallen van misvormingen en oplossingen voor elk.

Voorbeelden van onjuiste gegevens

3. Niet-onderzoeksartikelen
Enkele tientallen miljoenen records werden geïdentificeerd als niet-academische inhoud. (of op zijn minst verschillende indexeringsstructuren vereisen) Deze omvatten: patenten, e-mails, audio-opnames en enz. We zullen meer patronen bedenken om zoveel mogelijk van dit soort objecten te herkennen.
- ex) Caribbean Report (audionieuws door BBC)
- ex) Dictionnaire historique du Japon
- ex) Audio-opname van een klassiek muziekconcert

4. Randgevallen
Typische artikelen van de Europese Organisatie voor nucleair onderzoek (ook wel CERN genoemd) zouden enkele tientallen tot duizenden co-auteurs hebben.
- ex) Physics paper zet record neer met meer dan 5.000 auteurs

Aankomende

Samenvattend hebben we verschillende zinvolle analyses gemaakt op basis van zelfcitatie en co-auteursprofielen, maar deze hebben hun eigen beperkingen. We zullen meer inspanningen doen om gegevens voor te verwerken om gegevens van betere kwaliteit te krijgen, eerdere pogingen opnieuw in de verwerkte gegevensset repliceren en evalueren om die methoden te verbeteren of nieuwe benaderingen te bedenken.

Dank je.

Pluto-netwerk
Startpagina / Github / Facebook / Twitter / Telegram / Gemiddeld
Scinapse: Academische zoekmachine
E-mail: team@pluto.network