import numpy as np
import pandas as pd
df = pd.concat((pd.read_csv(r'c:\Projects\Python\SciHub\Sci-Hub Data Ukraine Part 1.csv',sep='\t', header=None),\
pd.read_csv(r'c:\Projects\Python\SciHub\Sci-Hub Data Ukraine Part 2.csv',sep='\t', header=None),\
pd.read_csv(r'c:\Projects\Python\SciHub\Sci-Hub Data Ukraine Part 3.csv',sep='\t', header=None),\
pd.read_csv(r'c:\Projects\Python\SciHub\Sci-Hub Data Ukraine Part 4.csv',sep='\t', header=None)),\
ignore_index=True)
df.head()
by_city = df.groupby([0]).size().sort_values(ascending=False)\
.to_frame('Кількість завантажень по містах')
by_city.to_csv(r'c:\Projects\Python\SciHub\by_city.tab', sep='\t', header=None)
print('Кількість завантажень по містах')
by_city.head()
by_disc = df.groupby([1]).size().sort_values(ascending=False)\
.to_frame('Кількість завантажень по дисциплінах')
by_disc.to_csv(r'c:\Projects\Python\SciHub\by_disc.tab', sep='\t', header=None)
by_disc.head()
by_publisher = df.groupby([2]).size().sort_values(ascending=False)\
.to_frame('Кількість завантажень по видавництвах')
by_publisher.to_csv(r'c:\Projects\Python\SciHub\by_publisher.tab', sep='\t', header=None)
by_publisher.head()
by_journal = df.groupby([3]).size().sort_values(ascending=False)\
.to_frame('Кількість завантажень по журналах')
by_journal.to_csv(r'c:\Projects\Python\SciHub\by_journal.tab', sep='\t', header=None)
by_journal.head()
by_doi = df.groupby([4]).size().sort_values(ascending=False)\
.to_frame('Топ-20 статей за кількістю завантажень')
by_doi.to_csv(r'c:\Projects\Python\SciHub\by_doi.tab', sep='\t', header=None)
by_doi.head(20)
by_doi[0:20].to_csv(r'c:\Projects\Python\SciHub\by_doi20.tab', sep='\t', header=None)