DBLP-derived labeled data for author name disambiguation

10.6084/m9.figshare.6840281.v2 Jinseok Kim Jinseok Kim DBLP-derived labeled data for author name disambiguation figshare 2018 labeled data training data author name disambiguaiton Information Retrieval and Web Search Library and Information Studies Natural Language Processing 2018-07-19 15:20:54 Dataset https://figshare.com/articles/dataset/DBLP-derived_labeled_data_for_author_name_disambiguation/6840281 This is a DBLP-derived labeled data originally created by Dr. C. Lee Giles at Penn State University and filtered for duplicate removal and error correction by Dr. Jinseok Kim at University of Michigan. For more details, see references below.<div><br></div><div>1. Kim, Jinseok (2018). Evaluating author name disambiguation for digital libraries: a case of DBLP. Scientometrics. doi:10.1007/s11192-018-2824-5 </div><div><br></div><div>2. Kim, Jinseok & Kim, Jenna (2018). The impact of imbalanced training data on machine learning for author name disambiguation. Scientometrics. doi: 10.1007/s11192-018-2865-9</div><div><br></div><div>Each row refers to an author name instance with following feature information separated by tab.</div><div><br></div><div>author name: full name string extracted from DBLP</div><div>unique author id: labels assigned manually by Dr. C. Lee Giles's team</div><div>paper id: assigned by Dr. Jinseok Kim</div><div>author list: names of authors in the byline of the paper</div><div>year: publication year</div><div>venue: conference or journal names</div><div>title: stopwords removed and stemmed by the Porter's stemmer</div><div><br></div><div>If you want to use this dataset, please consider to cite papers below.</div><div><br></div><div>For the original dataset: Han, H., Giles, L., Zha, H., Li, C., & Tsioutsiouliklis, K. (2004). Two Supervised Learning Approaches for Name Disambiguation in Author Citations. JCDL 2004: Proceedings of the Fourth ACM/IEEE Joint Conference on Digital Libraries, 296-305. doi:10.1145/996350.996419<br></div><div><br></div><div>For the filtered dataset: 1. Kim, Jinseok (2018). Evaluating author name disambiguation for digital libraries: a case of DBLP. Scientometrics. doi:10.1007/s11192-018-2824-5 </div><div><br></div><div>or</div><div><br></div><div>2. Kim, Jinseok & Kim, Jenna (2018). The impact of imbalanced training data on machine learning for author name disambiguation. Scientometrics. doi: 10.1007/s11192-018-2865-9</div><div><br></div>