데이터 전처리

이 기능은 민감한 데이터가 데이터 레이크로 전송되기 전에 클라이언트 측에서 처리되도록 보장하여 권한이 없는 외부 기관에 노출되는 것을 방지합니다.

자동 에이전트 프로세스 식별을 통한 최상의 머신 러닝(ML) 결과를 얻으려면 이 기능을 꺼 두세요(기본 설정). 이를 통해 ML은 더 많은 데이터를 분석할 수 있어 더 나은 자동 프로세스 분석이 가능합니다. 데이터 레이크 데이터베이스의 데이터를 해시하거나 마스킹해야 하는 경우에만 이 기능을 활성화하세요.

  1. 클라이언트 시스템에서 %appdata%\Nice_Systems\CXDiscovery로 이동하여 CXDClientConfig.json 파일을 엽니다.

  2. 이 기능을 활성화하려면 CXDClientConfig.json 파일의 DataCollection 아래에 다음 구성 섹션을 추가하세요. 전처리를 활성화하려면 PreProcessing "enabled" 속성을 true로 설정합니다.

    "전처리":

    {

    "활성화됨": "참",

    "emailToken": "_이메일_",

    "phoneNumberToken": "_phone_",

    "dateTimeToken": "_날짜시간_",

    "IP 토큰": "_ip_",

    "FirstNameToken": "_firstname_",

    "성 토큰": "_성_",

    "AirportToken": "_공항_",

    "시티토큰": "_시티_",

    "CountryToken": "_country_",

    "alphanumericToken": "_alphanumeric_",

    "숫자 토큰": "_num_",

    "customCharacterTokens": "",

    "maxKeepingInvalidMessageDays": "30"

    }

    이 기능이 제대로 작동하려면 CXDClientConfig.json 파일에서DataCollection속성이 활성화되어 있는지 확인하세요. 모든 속성은 선택 사항이며 지정하지 않으면 기본값이 사용됩니다.

    각 속성을 사용하면 클라이언트 구성에서 민감하거나 구조화된 데이터가 표현되거나 관리되는 방식을 사용자 정의할 수 있습니다.

    예:

    입력 텍스트: John Doe는 이메일 주소 john.doe@example.com, 전화번호 +1-555-1234를 가지고 있으며 미국 뉴욕에 거주합니다.

    일반화 후:

    입력 텍스트: _name_, 이메일 주소는 _email_이고 전화번호는 _phone_number_이며,_country_, _city_에 거주합니다.

  3. 데이터 마스킹: 위에 지정된 키워드를 제외한 모든 데이터가 마스킹됩니다. 예:

    마스킹 전:

    입력 텍스트: _name_은 이메일이 _email_이고 전화번호가 _phone_number_이며 _city_, _country_에 거주합니다.

    마스킹 후:

    마스크된 입력 텍스트: _이름_, CCCC CCCCC CC _이메일_ CCC CCCCC CCCCC CC _전화번호_, CCCCC CC _도시_, _국가_

  4. 데이터 해싱: 위에 지정된 키워드를 제외한 모든 데이터는 해시되어 다음 필드에 할당됩니다.

    • 해시된 제어 식별자

    • 텍스트해시됨

    • 프로세스 제목 해시됨

    예:

    해싱 전:

    _name_의 이메일 주소는 _email_이고 전화번호는 _phone_number_이며,_country__city_에 거주합니다.

    해싱 후:

    _이름_d883601c7ec91e2457a40e870755151d96019c7f60e1c7de8efec2a0bbd0db53_이메일_e1e4485e020ef85beab9c356edcf1846d40d2d12b5ad14f8e502eae357a6ce3a_전화번호_n umber_98698d73a9b09f7c6fe3cda57f1034f9be5c630765cba3df38579262275b26a0_도시_315f5bdb76d078c43b8ac0064e4a01646a5f0b8f9e4e0fbb2a6a6b9e826dd4b8_국가_

아래 표에서는 구성 속성을 설명합니다.

속성

설명

활성화됨

이 속성은 전처리 기능이 활성화되어 있는지 비활성화되어 있는지를 결정합니다.
기본적으로false(비활성화)로 설정됩니다. 이 기능을 활성화하면 아래 언급된 processTitle, url, textMasked, controlIdentifier의 민감한 데이터 필드가 구성된 토큰으로 바뀝니다.

이메일 토큰

이것은 메시지의 이메일 주소를 위한 자리 표시자입니다.

기본값: _email_

전화번호 토큰

이것은 메시지의 전화번호를 위한 자리표시자입니다.

기본값: _phone_

날짜시간토큰

이는 날짜 및 시간 값의 자리 표시자입니다.

기본값: _datetime_

IP토큰

이는 IP 주소의 자리 표시자입니다.

기본값: _ip_

FirstNameToken

이것은 메시지에서 이름을 입력하기 위한 자리 표시자입니다.

기본값: _firstname_

성 토큰

이것은 메시지에서 성(姓)을 나타내는 자리 표시자입니다.

기본값: _성_

에어포트토큰

이는 공항 이름이나 코드의 자리 표시자입니다.

기본값: _공항_

시티토큰

이것은 도시 이름의 자리 표시자입니다.

기본값: _city_

컨트리토큰

이는 국가 이름의 자리 표시자입니다.

기본값: _country_

영숫자 토큰

이는 영숫자 문자열의 자리 표시자입니다.

기본값: _영숫자_

숫자 토큰

이는 숫자 값의 자리 표시자입니다.

기본값: _num_

사용자 정의 캐릭터 토큰 이는 전처리 중에 별표(*)로 바꾸려는 특수 문자를 지정합니다. 기본값은 비어 있습니다.
최대유효메시지유지일수

이는 유효하지 않은 메시지를 보관하는 최대 일수를 나타냅니다.

기본값: 30(일)

제한 사항

  • 이름 인식 범위: 데이터베이스에 있는 이름(성, 이름, 공항, 도시, 국가 포함)과 정확히 일치하는 항목만 인식되고 토큰화됩니다. 변형이나 철자 오류는 감지되지 않습니다.

  • 이름 감지에서의 거짓 긍정: 이름의 양이 많기 때문에 이름이 아닌 일부 단어가 이름으로 잘못 식별될 수 있습니다.

  • 겹치는 이름 범주: 특정 이름은 여러 범주에 속할 수 있습니다(예: "조지아"와 "차드"는 이름, 성 또는 국가 이름이 될 수 있음). 토큰화는 데이터베이스의 범주에 따라 달라지며 다음 순서를 따릅니다. 이름 > 성 > 공항 이름 > 도시 이름 > 국가 이름.