공개 정적 클래스 FixUnigramCandidateSampler.Options
FixedUnigramCandidateSampler
의 선택적 속성
공개 방법
고정UnigramCandidateSampler.Options | 왜곡 (플로트 왜곡) |
고정UnigramCandidateSampler.Options | numReservedIds (긴 numReservedIds) |
고정UnigramCandidateSampler.Options | numShards (긴 numShards) |
고정UnigramCandidateSampler.Options | 종자 (긴 종자) |
고정UnigramCandidateSampler.Options | 시드2 (긴 시드2) |
고정UnigramCandidateSampler.Options | 샤드 (긴 샤드) |
고정UnigramCandidateSampler.Options | 유니그램 (List<Float> 유니그램) |
고정UnigramCandidateSampler.Options | vocabFile (문자열 vocabFile) |
상속된 메서드
공개 방법
공개 FixUnigramCandidateSampler.Options 왜곡 (부동 왜곡)
매개변수
왜곡 | 왜곡은 유니그램 확률 분포를 왜곡하는 데 사용됩니다. 각 가중치는 내부 유니그램 분포에 추가되기 전에 먼저 왜곡의 거듭제곱으로 올라갑니다. 결과적으로 왜곡 = 1.0은 일반 유니그램 샘플링(단어 파일에 정의된 대로)을 제공하고 왜곡 = 0.0은 균일한 분포를 제공합니다. |
---|
공개 FixUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)
매개변수
예약된 ID 수 | 선택적으로 사용자가 일부 예약된 ID를 [0, ..., num_reserved_ids) 범위에 추가할 수 있습니다. 한 가지 사용 사례는 특수한 알려지지 않은 단어 토큰이 ID 0으로 사용되는 것입니다. 이러한 ID의 샘플링 확률은 0입니다. |
---|
공개 FixUnigramCandidateSampler.Options numShards (Long numShards)
매개변수
샤드 수 | 병렬성을 통해 전체 계산 속도를 높이기 위해 샘플러를 사용하여 원래 범위의 하위 집합에서 샘플링할 수 있습니다. 이 매개변수('shard'와 함께)는 전체 계산에 사용되는 파티션 수를 나타냅니다. |
---|
public FixUnigramCandidateSampler.Options 시드 (긴 시드)
매개변수
씨앗 | Seed 또는 Seed2가 0이 아닌 값으로 설정된 경우 난수 생성기는 지정된 시드에 의해 시드됩니다. 그렇지 않으면 무작위 시드에 의해 시드됩니다. |
---|
공개 FixUnigramCandidateSampler.Options 샤드 (긴 샤드)
매개변수
사금파리 | 병렬성을 통해 전체 계산 속도를 높이기 위해 샘플러를 사용하여 원래 범위의 하위 집합에서 샘플링할 수 있습니다. 이 매개변수('num_shards'와 함께)는 분할이 사용될 때 샘플러 작업의 특정 파티션 번호를 나타냅니다. |
---|
공개 FixUnigramCandidateSampler.Options 유니그램 (List<Float> 유니그램)
매개변수
유니그램 | ID당 하나씩 순차적으로 표시되는 유니그램 수 또는 확률 목록입니다. vocab_file과 유니그램 중 정확히 하나만 이 작업에 전달되어야 합니다. |
---|
공개 FixUnigramCandidateSampler.Options vocabFile (문자열 vocabFile)
매개변수
어휘파일 | 이 파일의 각 유효한 줄(CSV 형식이어야 함)은 유효한 단어 ID에 해당합니다. ID는 num_reserved_ids부터 순차적으로 나열됩니다. 각 줄의 마지막 항목은 개수 또는 상대 확률에 해당하는 값이 될 것으로 예상됩니다. vocab_file과 유니그램 중 정확히 하나가 이 작업에 전달되어야 합니다. |
---|