이 기능은 Python SDK를 통해서만 사용할 수 있습니다.
일부 조직은 대규모 언어 모델(LLM) 워크플로에서 이름, 전화번호, 이메일 주소와 같은 개인정보(PII, Personally Identifiable Information)를 처리합니다. 이 데이터를 Weights & Biases (W&B) Weave에 저장하면 컴플라이언스 및 보안 위험이 발생할 수 있습니다.
Sensitive Data Protection 기능을 사용하면 trace가 Weave 서버로 전송되기 전에 개인정보(PII)를 자동으로 마스킹할 수 있습니다. 이 기능은 Microsoft Presidio를 Weave Python SDK에 통합하므로, SDK 수준에서 마스킹 설정을 제어할 수 있습니다.
Sensitive Data Protection 기능은 Python SDK에 다음 기능을 제공합니다:
weave.init 호출에서 redact_pii 설정을 켜거나 꺼 PII 마스킹을 활성화하거나 비활성화할 수 있습니다.
redact_pii = True일 때 일반 엔티티를 자동으로 마스킹합니다.
- 구성 가능한
redact_pii_fields 설정을 사용해 마스킹할 필드를 사용자 지정할 수 있습니다.
Weave에서 Sensitive Data Protection 기능을 사용하려면 다음 단계를 완료하세요:
-
필요한 종속성을 설치합니다:
pip install presidio-analyzer presidio-anonymizer
-
weave.init 호출을 수정하여 비식별 처리를 활성화합니다. redact_pii=True인 경우, 일반 엔티티는 기본적으로 비식별 처리됩니다:
import weave
weave.init("my-project", settings={"redact_pii": True})
-
(선택 사항)
redact_pii_fields 매개변수를 사용하여 비식별 처리할 필드를 사용자 지정합니다:
weave.init("my-project", settings={"redact_pii": True, "redact_pii_fields":["CREDIT_CARD", "US_SSN"]})
감지 및 비식별 처리할 수 있는 엔티티의 전체 목록은 Presidio에서 지원하는 PII 엔티티를 참조하세요.
PII 비식별 처리가 활성화되면 다음 엔터티가 자동으로 비식별 처리됩니다:
CREDIT_CARD
CRYPTO
EMAIL_ADDRESS
ES_NIF
FI_PERSONAL_IDENTITY_CODE
IBAN_CODE
IN_AADHAAR
IN_PAN
IP_ADDRESS
LOCATION
PERSON
PHONE_NUMBER
UK_NHS
UK_NINO
US_BANK_NUMBER
US_DRIVER_LICENSE
US_PASSPORT
US_SSN
REDACT_KEYS를 사용하여 민감한 키 마스킹하기
PII 마스킹 외에도 Weave SDK는 REDACT_KEYS를 사용해 사용자 정의 키를 마스킹하는 기능을 제공합니다. 이는 PII 범주에는 속하지 않지만 비공개로 유지해야 하는 추가 민감 데이터를 보호할 때 유용합니다. 예시는 다음과 같습니다.
- API key
- 인증 헤더
- 토큰
- 내부 ID
- 설정 값
Weave는 기본적으로 다음과 같은 민감한 키를 자동으로 마스킹합니다.
[
"api_key",
"auth_headers",
"authorization"
]
추적에서 숨기려는 사용자 정의 키를 이 목록에 추가해 확장할 수 있습니다:
import weave
from weave.utils import sanitize
client = weave.init("my-project", settings={"redact_pii": True})
# 삭제할 사용자 정의 키 추가
sanitize.add_redact_key("client_id")
sanitize.add_redact_key("token")
client_id = "123"
token = "789"
@weave.op
def test(client_id, token):
return client_id + token
test(client_id, token)
Weave UI에서 확인하면 client_id 및 token 값은 "REDACTED"로 표시됩니다:
client_id = "REDACTED"
token = "REDACTED"
- 이 기능은 Python SDK에서만 사용할 수 있습니다.
- Presidio에 대한 종속성 때문에 마스킹을 활성화하면 처리 시간이 증가합니다.