大家好,我是 👉【Python当打之年(点击跳转)】
本期利用 python 分析一下「当当网图书畅销榜单(2020-2023)数据」 ,看看哪些作者的图书最畅销、哪些年份的图书上榜最多、上榜图书的价格分布、评论分布以及出版社分布 等,希望对大家有所帮助,如有疑问或者需要改进的地方可以联系小编。
涉及到的库:
import pandas as pd from pyecharts.charts import * from pyecharts import options as opts import warnings warnings.filterwarnings('ignore')
df = pd.read_csv("./当当网畅销图书榜单数据.csv")
df.info()
df = df.drop_duplicates(subset=['书名','出版日期'])
new_name = [] for name in df['书名'].tolist(): name_t = name.split('(')[0].split(' ')[0].split('・')[0] new_name.append(name_t) df['书名_new'] = new_name
df['出版日期_year'] = pd.to_datetime(df['出版日期']).dt.year
-陈磊・半小时漫画团队、东野圭吾的书籍上榜次数居多,代表作分别有《半小时漫画中国史》、《半小时漫画唐诗系列》、《白夜行》、《解忧杂货店》、《嫌疑人X的献身》等。
-曹文轩、余华、肥志、毛姆等老师的作品上榜次数分列第2至第5位。
def get_line(): chart = ( Line() .add_xaxis(x_data) .add_yaxis("", y_data) .set_global_opts( title_opts=opts.TitleOpts( title="2-图书出版年份分布", ), xaxis_opts=opts.AxisOpts( axislabel_opts=opts.LabelOpts(rotate=30), splitline_opts=opts.SplitLineOpts(is_show=False) ), ) )
def get_bar(): chart = ( Bar() .add_xaxis(x_data) .add_yaxis("", y_data) .set_global_opts( title_opts=opts.TitleOpts( title="4-图书售价区间分布", ), visualmap_opts=opts.VisualMapOpts( is_show=False, ), ) )
从售价区间分布上来看:20元以下的图书上榜次数接近400次,20-30元之间的300次左右,也就是30元以内的图书上榜次数接近60%。
从售价区间可以看出来图书的售价和上榜率有一定的关系。
def get_pie(): chart = ( Pie() .add("", [list(z) for z in zip(x_data, y_data)]) .set_global_opts( title_opts=opts.TitleOpts( title="5-电子书价格区间占比", pos_top='2%', pos_left="center" ), visualmap_opts=opts.VisualMapOpts(is_show=False,), ) ) return chart
def get_wordcloud(): chart = ( WordCloud() .add("",words,word_size_range=[10,50]) .set_global_opts( title_opts=opts.TitleOpts( title='8-图书评论词云', pos_top='2%', pos_left="center", ), legend_opts=opts.LegendOpts(is_show=False), visualmap_opts=opts.VisualMapOpts(is_show=False), ) ) return chart
点击跳转:【全部可视化项目源码+数据】
以上就是本期为大家整理的全部内容了,赶快练习起来吧,原创不易,喜欢的朋友可以点赞、收藏也可以分享(注明出处)让更多人知道。