Python 中的反序列化漏洞¶

约 923 个字 40 行代码预计阅读时间 7 分钟

Note

才...才不是因为会有15%的bonus才写的呢！（

反序列化漏洞在许多编程语言中都是一个严重的安全问题，Python 也不例外。特别是 Python 的 pickle 模块，如果使用不当，容易成为攻击者的目标。本文将详细探讨 Python 中的反序列化漏洞、常见攻击方法及其防护措施。

反序列化漏洞概述¶

反序列化是将序列化数据（通常是二进制或字符串形式）重新转换为对象的过程。序列化用于持久化对象或在网络上传输对象。然而，如果反序列化过程处理了恶意构造的数据，可能导致任意代码执行（Remote Code Execution, RCE），进而危及系统安全。

pickle 模块及其危险性¶

pickle 是 Python 内置的序列化模块，支持序列化几乎所有 Python 对象。它的强大功能使其在某些场景下非常有用，但也带来了安全风险，因为 pickle 可以序列化和反序列化包含任意代码的对象。

以下是一个简单的 pickle 使用示例：

Python
import pickle

# 序列化对象
data = {'key': 'value'}
serialized_data = pickle.dumps(data)

# 反序列化对象
deserialized_data = pickle.loads(serialized_data)
print(deserialized_data)

在上述代码中，pickle.dumps 将字典对象序列化为字节数据，pickle.loads 则将其反序列化为原始对象。尽管此过程看似安全，但如果反序列化的数据来自不可信来源，可能引发安全问题。

恶意反序列化示例¶

假设我们有一个包含恶意代码的序列化数据，反序列化该数据将执行恶意代码。以下示例展示了如何利用 pickle 进行攻击：

Python
import pickle
import os

# 创建恶意数据
class Malicious:
    def __reduce__(self):
        return (os.system, ('ls',))

malicious_data = pickle.dumps(Malicious())

# 反序列化恶意数据
pickle.loads(malicious_data)

在这个示例中，定义了一个 Malicious 类，其 reduce 方法返回一个可调用对象和参数元组。这会在反序列化时执行 os.system('ls')，列出当前目录内容。攻击者可以利用类似手段执行任意系统命令。

防护措施¶

为了防止反序列化漏洞，建议采取以下防护措施：

避免使用 pickle 反序列化不可信数据：pickle 的灵活性使其在处理不受信任的数据时非常危险。尽量避免使用 pickle 反序列化来自不可信来源的数据。
使用更安全的序列化模块：如果不需要序列化复杂对象，可以使用更安全的序列化模块，如 json。json 模块只支持基本数据类型的序列化和反序列化，不会执行代码，从而更安全。

Python
import json

# 序列化
data = {'key': 'value'}
serialized_data = json.dumps(data)

# 反序列化
deserialized_data = json.loads(serialized_data)
print(deserialized_data)

验证和清理输入数据： - 在反序列化之前，尽可能验证数据的来源和格式，确保其安全。例如，可以使用签名和哈希验证数据的完整性和真实性。
使用受限环境： - 如果必须使用 pickle，可以在一个受限环境中运行反序列化代码，例如使用沙箱（sandbox）技术或其他隔离机制，限制代码执行的权限。
限制可反序列化的类： - 可以通过自定义 Unpickler 类并覆盖其 find_class 方法，限制反序列化时可用的类，从而减少攻击面。

Python
import pickle

class RestrictedUnpickler(pickle.Unpickler):
    def find_class(self, module, name):
        if module == "builtins" and name in {"list", "dict", "set", "tuple"}:
            return super().find_class(module, name)
        raise pickle.UnpicklingError(f"global '{module}.{name}' is forbidden")

def restricted_loads(s):
    return RestrictedUnpickler(io.BytesIO(s)).load()

结论¶

反序列化漏洞是一个严重的安全问题，在 Python 中尤为值得关注。开发者应当充分了解反序列化的风险，并采取适当的防护措施，避免将应用程序暴露在潜在的安全威胁中。通过谨慎选择序列化模块、验证输入数据、使用受限环境和限制反序列化类，可以有效降低反序列化漏洞带来的风险。