FixedUnigramCandidateSampler.Options

공개 정적 클래스 FixUnigramCandidateSampler.Options

FixedUnigramCandidateSampler 의 선택적 속성

공개 방법

고정UnigramCandidateSampler.Options
왜곡 (플로트 왜곡)
고정UnigramCandidateSampler.Options
numReservedIds (긴 numReservedIds)
고정UnigramCandidateSampler.Options
numShards (긴 numShards)
고정UnigramCandidateSampler.Options
종자 (긴 종자)
고정UnigramCandidateSampler.Options
시드2 (긴 시드2)
고정UnigramCandidateSampler.Options
샤드 (긴 샤드)
고정UnigramCandidateSampler.Options
유니그램 (List<Float> 유니그램)
고정UnigramCandidateSampler.Options
vocabFile (문자열 vocabFile)

상속된 메서드

공개 방법

공개 FixUnigramCandidateSampler.Options 왜곡 (부동 왜곡)

매개변수
왜곡 왜곡은 유니그램 확률 분포를 왜곡하는 데 사용됩니다. 각 가중치는 내부 유니그램 분포에 추가되기 전에 먼저 왜곡의 거듭제곱으로 올라갑니다. 결과적으로 왜곡 = 1.0은 일반 유니그램 샘플링(단어 파일에 정의된 대로)을 제공하고 왜곡 = 0.0은 균일한 분포를 제공합니다.

공개 FixUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)

매개변수
예약된 ID 수 선택적으로 사용자가 일부 예약된 ID를 [0, ..., num_reserved_ids) 범위에 추가할 수 있습니다. 한 가지 사용 사례는 특수한 알려지지 않은 단어 토큰이 ID 0으로 사용되는 것입니다. 이러한 ID의 샘플링 확률은 0입니다.

공개 FixUnigramCandidateSampler.Options numShards (Long numShards)

매개변수
샤드 수 병렬성을 통해 전체 계산 속도를 높이기 위해 샘플러를 사용하여 원래 범위의 하위 집합에서 샘플링할 수 있습니다. 이 매개변수('shard'와 함께)는 전체 계산에 사용되는 파티션 수를 나타냅니다.

public FixUnigramCandidateSampler.Options 시드 (긴 시드)

매개변수
씨앗 Seed 또는 Seed2가 0이 아닌 값으로 설정된 경우 난수 생성기는 지정된 시드에 의해 시드됩니다. 그렇지 않으면 무작위 시드에 의해 시드됩니다.

공개 FixUnigramCandidateSampler.Options Seed2 (긴 시드2)

매개변수
시드2 시드 충돌을 피하기 위한 두 번째 시드입니다.

공개 FixUnigramCandidateSampler.Options 샤드 (긴 샤드)

매개변수
사금파리 병렬성을 통해 전체 계산 속도를 높이기 위해 샘플러를 사용하여 원래 범위의 하위 집합에서 샘플링할 수 있습니다. 이 매개변수('num_shards'와 함께)는 분할이 사용될 때 샘플러 작업의 특정 파티션 번호를 나타냅니다.

공개 FixUnigramCandidateSampler.Options 유니그램 (List<Float> 유니그램)

매개변수
유니그램 ID당 하나씩 순차적으로 표시되는 유니그램 수 또는 확률 목록입니다. vocab_file과 유니그램 중 정확히 하나만 이 작업에 전달되어야 합니다.

공개 FixUnigramCandidateSampler.Options vocabFile (문자열 vocabFile)

매개변수
어휘파일 이 파일의 각 유효한 줄(CSV 형식이어야 함)은 유효한 단어 ID에 해당합니다. ID는 num_reserved_ids부터 순차적으로 나열됩니다. 각 줄의 마지막 항목은 개수 또는 상대 확률에 해당하는 값이 될 것으로 예상됩니다. vocab_file과 유니그램 중 정확히 하나가 이 작업에 전달되어야 합니다.