FixedUnigramCandidateSampler

공개 최종 클래스 FixUnigramCandidateSampler

학습된 유니그램 분포를 사용하여 후보 샘플링에 대한 레이블을 생성합니다.

유니그램 샘플러는 데이터에서 즉시 분포를 구축하는 대신 파일에서 읽거나 메모리 내 배열로 전달된 고정 유니그램 분포를 사용할 수 있습니다. 가중치에 왜곡 전력을 적용하여 분포를 왜곡하는 옵션도 있습니다.

어휘 파일은 CSV와 같은 형식이어야 하며 마지막 필드는 단어와 관련된 가중치입니다.

각 배치에 대해 이 작업은 샘플링된 후보 라벨의 단일 세트를 선택합니다.

배치당 후보 샘플링의 장점은 단순성과 효율적인 조밀 행렬 곱셈의 가능성입니다. 단점은 샘플링된 후보를 컨텍스트 및 실제 레이블과 독립적으로 선택해야 한다는 것입니다.

중첩 클래스

수업 고정UnigramCandidateSampler.Options FixedUnigramCandidateSampler 의 선택적 속성

상수

OP_NAME TensorFlow 코어 엔진에서 알려진 이 작업의 이름

공개 방법

정적 FixUnigramCandidateSampler
생성 ( 범위 범위, 피연산자 < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean 고유, Long rangeMax, 옵션... 옵션)
새로운 FixUnigramCandidateSampler 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
정적 FixUnigramCandidateSampler.Options
왜곡 (플로트 왜곡)
정적 FixUnigramCandidateSampler.Options
numReservedIds (긴 numReservedIds)
정적 FixUnigramCandidateSampler.Options
numShards (긴 numShards)
출력 < TInt64 >
샘플링된 후보 ()
각 요소가 샘플링된 후보의 ID인 길이 num_sampled의 벡터입니다.
출력 < TFloat32 >
샘플링예상횟수 ()
각 샘플링된 후보에 대해 길이가 num_sampled인 벡터는 샘플링된 후보 배치에서 후보가 발생할 것으로 예상되는 횟수를 나타냅니다.
정적 FixUnigramCandidateSampler.Options
종자 (긴 종자)
정적 FixUnigramCandidateSampler.Options
시드2 (긴 시드2)
정적 FixUnigramCandidateSampler.Options
샤드 (긴 샤드)
출력 < TFloat32 >
trueExpectedCount ()
배치_크기 * num_true 행렬은 샘플링된 후보 배치에서 각 후보가 발생할 것으로 예상되는 횟수를 나타냅니다.
정적 FixUnigramCandidateSampler.Options
유니그램 (List<Float> 유니그램)
정적 FixUnigramCandidateSampler.Options
vocabFile (문자열 vocabFile)

상속된 메서드

상수

공개 정적 최종 문자열 OP_NAME

TensorFlow 코어 엔진에서 알려진 이 작업의 이름

상수 값: "FixedUnigramCandidateSampler"

공개 방법

공개 정적 FixUnigramCandidateSampler 생성 ( 범위 범위, 피연산자 < TInt64 > trueClasses, Long numTrue, Long numSampled, Boolean 고유, Long rangeMax, 옵션... 옵션)

새로운 FixUnigramCandidateSampler 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.

매개변수
범위 현재 범위
trueClass 각 행에 해당 원본 레이블의 num_true target_classes ID가 포함되어 있는 Batch_size * num_true 행렬.
numTrue 컨텍스트당 실제 레이블 수입니다.
샘플링된 수 무작위로 샘플링할 후보자 수입니다.
고유한 Unique가 true인 경우 거부를 통해 샘플링하므로 배치의 모든 샘플링된 후보가 고유해집니다. 이를 위해서는 거부 후 샘플링 확률을 추정하기 위한 몇 가지 근사치가 필요합니다.
범위최대 샘플러는 간격 [0, range_max)에서 정수를 샘플링합니다.
옵션 선택적 속성 값을 전달합니다.
보고
  • FixUnigramCandidateSampler의 새로운 인스턴스

공개 정적 FixUnigramCandidateSampler.Options 왜곡 (부동 왜곡)

매개변수
왜곡 왜곡은 유니그램 확률 분포를 왜곡하는 데 사용됩니다. 각 가중치는 내부 유니그램 분포에 추가되기 전에 먼저 왜곡의 거듭제곱으로 올라갑니다. 결과적으로 왜곡 = 1.0은 일반 유니그램 샘플링(단어 파일에 정의된 대로)을 제공하고 왜곡 = 0.0은 균일한 분포를 제공합니다.

공개 정적 FixUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

매개변수
예약된 ID 수 선택적으로 사용자가 일부 예약된 ID를 [0, ..., num_reserved_ids) 범위에 추가할 수 있습니다. 한 가지 사용 사례는 특수한 알려지지 않은 단어 토큰이 ID 0으로 사용되는 것입니다. 이러한 ID의 샘플링 확률은 0입니다.

공개 정적 FixUnigramCandidateSampler.Options numShards (Long numShards)

매개변수
샤드 수 병렬성을 통해 전체 계산 속도를 높이기 위해 샘플러를 사용하여 원래 범위의 하위 집합에서 샘플링할 수 있습니다. 이 매개변수('shard'와 함께)는 전체 계산에 사용되는 파티션 수를 나타냅니다.

공개 출력 <TInt64> sampledCandidates ()

각 요소가 샘플링된 후보의 ID인 길이 num_sampled의 벡터입니다.

공개 출력 < TFloat32 > samplingdExpectedCount ()

각 샘플링된 후보에 대해 길이가 num_sampled인 벡터는 샘플링된 후보 배치에서 후보가 발생할 것으로 예상되는 횟수를 나타냅니다. Unique=true인 경우 이는 확률입니다.

공개 정적 FixUnigramCandidateSampler.Options 시드 (긴 시드)

매개변수
씨앗 Seed 또는 Seed2가 0이 아닌 값으로 설정된 경우 난수 생성기는 지정된 시드에 의해 시드됩니다. 그렇지 않으면 무작위 시드에 의해 시드됩니다.

공개 정적 FixUnigramCandidateSampler.Options Seed2 (긴 시드2)

매개변수
시드2 시드 충돌을 피하기 위한 두 번째 시드입니다.

공개 정적 FixUnigramCandidateSampler.Options 샤드 (긴 샤드)

매개변수
사금파리 병렬성을 통해 전체 계산 속도를 높이기 위해 샘플러를 사용하여 원래 범위의 하위 집합에서 샘플링할 수 있습니다. 이 매개변수('num_shards'와 함께)는 분할이 사용될 때 샘플러 작업의 특정 파티션 번호를 나타냅니다.

공개 출력 < TFloat32 > trueExpectedCount ()

배치_크기 * num_true 행렬은 샘플링된 후보 배치에서 각 후보가 발생할 것으로 예상되는 횟수를 나타냅니다. Unique=true인 경우 이는 확률입니다.

공개 정적 FixUnigramCandidateSampler.Options 유니그램 (List<Float> 유니그램)

매개변수
유니그램 ID당 하나씩 순차적으로 표시되는 유니그램 수 또는 확률 목록입니다. vocab_file과 유니그램 중 정확히 하나만 이 작업에 전달되어야 합니다.

공개 정적 FixUnigramCandidateSampler.Options vocabFile (문자열 vocabFile)

매개변수
어휘파일 이 파일의 각 유효한 줄(CSV 형식이어야 함)은 유효한 단어 ID에 해당합니다. ID는 num_reserved_ids부터 순차적으로 나열됩니다. 각 줄의 마지막 항목은 개수 또는 상대 확률에 해당하는 값이 될 것으로 예상됩니다. vocab_file과 유니그램 중 정확히 하나가 이 작업에 전달되어야 합니다.