您现在的位置是:亿华云 > 系统运维

30 个数据科学工作中必备的 Python 包

亿华云2025-10-02 18:54:55【系统运维】3人已围观

简介Python 可以说是最容易入门的编程语言,在numpy,scipy等基础包的帮助下,对于数据的处理和机器学习来说Python可以说是目前最好的语言,在各位大佬和热心贡献者的帮助下Python拥有一个

Python 可以说是个数最容易入门的编程语言,在numpy,据科scipy等基础包的学工帮助下,对于数据的作中处理和机器学习来说Python可以说是目前最好的语言,在各位大佬和热心贡献者的必备n包帮助下Python拥有一个庞大的社区支持技术发展,开发两个各种 Python 包来帮助数据人员的个数工作。

1、据科Knockknock

Knockknock是学工一个简单的Python包,它会在机器学习模型训练结束或崩溃时通知您。作中我们可以通过多种渠道获得通知,必备n包如电子邮件、个数Slack、据科Microsoft Teams等。学工

为了安装该包,作中我们使用以下代码。源码库必备n包

pip install knockknock

例如,我们可以使用以下代码将机器学习建模训练状态通知到指定的电子邮件地址。

from knockknock import email_sender

from sklearn.linear_model import LinearRegression

import numpy as np

@email_sender(recipient_emails=["", ""], sender_email="")

def train_linear_model(your_nicest_parameters):

x = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])

y = np.dot(x, np.array([1, 2])) + 3

regression = LinearRegression().fit(x, y)

return regression.score(x, y)

这样就可以在该函数出现问题或者完成时获得通知。

2、tqdm

当需要进行迭代或循环时,如果你需要显示进度条?那么tqdm就是你需要的。这个包将在你的笔记本或命令提示符中提供一个简单的进度计。

让我们从安装包开始。

pip install tqdm

然后可以使用以下代码来显示循环过程中的进度条。

from tqdm import tqdm

q = 0

for i in tqdm(range(10000000)):

q = i +1

就像上面的gifg,它可以在notebook上显示一个很好的进度条。当有一个复杂的迭代并且想要跟踪进度时,它会非常有用。

3、Pandas-log

Panda -log可以对Panda的基本操作提供反馈,服务器托管如.query、.drop、.merge等。它基于R的Tidyverse,可以使用它了解所有数据分析步骤。

安装包

pip install pandas-log

安装包之后,看看下面的示例。

import pandas as pd

import numpy as np

import pandas_log

df = pd.DataFrame({ "name": [Alfred, Batman, Catwoman],

"toy": [np.nan, Batmobile, Bullwhip],

"born": [pd.NaT, pd.Timestamp("1940-04-25"), pd.NaT]})

然后让我们尝试用下面的代码做一个简单的 pandas 操作记录。

with pandas_log.enable():

res = (df.drop("born", axis = 1)

.groupby(name)

)

通过 pandas-log,我们可以获取所有的执行信息。

4、Emoji

顾名思义,Emoji 是一个支持 emoji 文本解析的 Python 包。通常,我们很难用 Python 处理表情符号,但 Emoji 包可以帮助我们进行转换。

使用以下代码安装 Emoji 包。

pip install emoji

看看下面代码:

import emoji

print(emoji.emojize(Python is :thumbs_up:))Python is亿华云

很赞哦!(8837)