Python 也有很强的数据分析和可视化能力,拥有许多强大的框架和库。以下是一些 Python 中常用的数据分析和可视化库:
Pandas:Pandas 是一个强大的数据分析和数据处理库,提供了高效的数据结构和数据分析工具。它使数据清洗、数据操作和数据分析变得非常方便。
import pandas as pd df = pd.read_csv('data.csv') df.head()
NumPy:NumPy 是一个用于科学计算的库,支持大规模的多维数组和矩阵运算,并提供了大量的数学函数库。
import numpy as np arr = np.array([1, 2, 3]) print(arr)
SciPy:SciPy 是一个用于科学和技术计算的库,建立在 NumPy 之上,提供了更多的数学算法和函数。
from scipy import stats print(stats.norm.pdf(0))
Scikit-learn:Scikit-learn 是一个用于数据挖掘和数据分析的机器学习库,提供了各种分类、回归、聚类算法和数据预处理工具。
from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) clf = RandomForestClassifier() clf.fit(X_train, y_train)
Matplotlib:Matplotlib 是一个基础的绘图库,能够生成各种静态、动态和交互式图表。
import matplotlib.pyplot as plt plt.plot([1, 2, 3], [4, 5, 6]) plt.show()
Seaborn:Seaborn 是建立在 Matplotlib 之上的数据可视化库,提供了更高级的接口和更美观的默认样式,特别适合统计图表。
import seaborn as sns sns.set(style="whitegrid") tips = sns.load_dataset("tips") sns.boxplot(x="day", y="total_bill", data=tips)
Plotly:Plotly 是一个用于创建交互式图表的库,支持多种图表类型,并且可以轻松地与 Web 集成。
import plotly.express as px df = px.data.iris() fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species") fig.show()
Bokeh:Bokeh 是一个用于创建交互式可视化的库,特别适合大规模数据的可视化。
from bokeh.plotting import figure, show p = figure(title="simple line example") p.line([1, 2, 3], [4, 5, 6]) show(p)