In [41]:
import numpy as np
import pandas as pd
In [42]:
df = pd.concat((pd.read_csv(r'c:\Projects\Python\SciHub\Sci-Hub Data Ukraine Part 1.csv',sep='\t', header=None),\
               pd.read_csv(r'c:\Projects\Python\SciHub\Sci-Hub Data Ukraine Part 2.csv',sep='\t', header=None),\
               pd.read_csv(r'c:\Projects\Python\SciHub\Sci-Hub Data Ukraine Part 3.csv',sep='\t', header=None),\
               pd.read_csv(r'c:\Projects\Python\SciHub\Sci-Hub Data Ukraine Part 4.csv',sep='\t', header=None)),\
               ignore_index=True)
df.head()
Out[42]:
0 1 2 3 4
0 Kyiv NaN Wiley-VCH Verlag GmbH & Co. KGaA Thermoset Nanocomposites 10.1002/9783527659647.ch4
1 Kyiv NaN IEEE 2015 International Siberian Conference on Cont... 10.1109/SIBCON.2015.7147190
2 Kyiv Physical and Theoretical Chemistry, Atomic and... Wiley-Blackwell ChemPhysChem 10.1002/cphc.201402814
3 Kharkiv Surfaces, Coatings and Films Elsevier BV Applied Surface Science 10.1016/j.apsusc.2010.01.058
4 Kyiv Biotechnology, Engineering (miscellaneous), Bi... Wiley-Blackwell Small 10.1002/smll.201102635
In [43]:
by_city = df.groupby([0]).size().sort_values(ascending=False)\
    .to_frame('Кількість завантажень по містах')
by_city.to_csv(r'c:\Projects\Python\SciHub\by_city.tab', sep='\t', header=None)
print('Кількість завантажень по містах')
by_city.head()
Кількість завантажень по містах
Out[43]:
Кількість завантажень по містах
0
Kyiv 186838
Kharkiv 36631
L'viv 27982
Donetsk 23231
Vinnytsia 21030
In [44]:
by_disc = df.groupby([1]).size().sort_values(ascending=False)\
    .to_frame('Кількість завантажень по дисциплінах')
by_disc.to_csv(r'c:\Projects\Python\SciHub\by_disc.tab', sep='\t', header=None)
by_disc.head()
Out[44]:
Кількість завантажень по дисциплінах
1
Organic Chemistry 10282
General Physics and Astronomy 9770
General Chemistry 8905
Colloid and Surface Chemistry, Biochemistry, General Chemistry, Catalysis 6769
Organic Chemistry, Biochemistry, Drug Discovery 6194
In [45]:
by_publisher = df.groupby([2]).size().sort_values(ascending=False)\
    .to_frame('Кількість завантажень по видавництвах')
by_publisher.to_csv(r'c:\Projects\Python\SciHub\by_publisher.tab', sep='\t', header=None)
by_publisher.head()
Out[45]:
Кількість завантажень по видавництвах
2
Elsevier BV 100911
American Chemical Society (ACS) 40705
Springer Nature 36975
Wiley-Blackwell 27625
Informa UK Limited 18355
In [46]:
by_journal = df.groupby([3]).size().sort_values(ascending=False)\
    .to_frame('Кількість завантажень по журналах')
by_journal.to_csv(r'c:\Projects\Python\SciHub\by_journal.tab', sep='\t', header=None)
by_journal.head()
Out[46]:
Кількість завантажень по журналах
3
Journal of the American Chemical Society 6769
The Journal of Organic Chemistry 6038
Physical Review B 4325
Journal of Medicinal Chemistry 3712
Tetrahedron Letters 3226
In [50]:
by_doi = df.groupby([4]).size().sort_values(ascending=False)\
    .to_frame('Топ-20 статей за кількістю завантажень')
by_doi.to_csv(r'c:\Projects\Python\SciHub\by_doi.tab', sep='\t', header=None)
by_doi.head(20)
Out[50]:
Топ-20 статей за кількістю завантажень
4
10.1037/1528-3542.3.4.394 179
10.1007/s11746-003-0812-z 162
10.1385/1-59259-766-1:491 125
10.1007/BF01011161 124
10.1016/j.desal.2013.12.019 118
10.1352/2326-6988-2.1.54 102
10.1111/j.1365-2249.2008.03635.x 85
10.1016/S0043-1354(01)00295-0 85
10.1021/jo2005928 77
10.1016/j.ejmech.2014.04.059 73
10.1016/j.orggeochem.2015.05.009 72
10.1007/BF00808679 72
10.1021/jo01045a063 71
10.1039/B406335J 69
10.1002/prac.19060730121 68
10.1002/cber.19811140818 68
10.1021/ja01201a505 67
10.1016/j.clnu.2003.12.002 65
10.1002/anie.201304188 61
10.1016/j.foodcont.2009.10.008 60
In [52]:
by_doi[0:20].to_csv(r'c:\Projects\Python\SciHub\by_doi20.tab', sep='\t', header=None)