GenerateVocabRemapping

공개 최종 클래스 생성VocabRemapping

새로운 어휘 파일과 기존 어휘 파일의 경로가 주어지면 다음의 리매핑 Tensor를 반환합니다.

길이 `num_new_vocab`, 여기서 `remapping[i]`에는 새 어휘의 `i` 행에 해당하는 이전 어휘의 행 번호가 포함됩니다(`new_vocab_offset` 줄에서 시작하여 최대 `num_new_vocab` 항목까지). 또는 `- 1` 새 어휘의 'i' 항목이 이전 어휘에 없는 경우. `old_vocab_size`가 기본값인 -1이 아닌 경우 이전 어휘는 첫 번째 `old_vocab_size` 항목으로 제한됩니다.

`num_vocab_offset`은 분할 변수의 경우에 사용 가능하며, 일반적으로 분할 정보를 검토하여 설정해야 합니다. 파일 형식은 텍스트 파일이어야 하며, 각 줄에는 어휘 내의 단일 엔터티가 포함되어 있어야 합니다.

예를 들어, `new_vocab_file`을 사용하면 다음 요소 각각을 한 줄에 포함하는 텍스트 파일: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`인 경우 반환된 리매핑은 `[0, -1, 2]`입니다.

또한 op는 이전 어휘에 존재하는 새 어휘의 항목 수를 반환합니다. 이는 가중치 행렬 재매핑에서 초기화할 값 수를 계산하는 데 사용됩니다.

이 기능은 TensorFlow 체크포인트에서 행 어휘(일반적으로 기능)와 열 어휘(일반적으로 클래스)를 모두 다시 매핑하는 데 사용할 수 있습니다. 분할 논리는 div로 분할된 변수에 해당하는 연속 어휘에 의존합니다. 더욱이 기본 재매핑은 (정확하지 않은 CuckooTable과 반대되는) IndexTable을 사용하므로 클라이언트 코드는 FeatureColumn 프레임워크처럼 (CuckooTable을 사용하는 tf.feature_to_id()와 반대되는) 해당 index_table_from_file()을 사용해야 합니다.

중첩 클래스

수업 생성VocabRemapping.Options GenerateVocabRemapping 의 선택적 속성

상수

OP_NAME TensorFlow 코어 엔진에서 알려진 이 작업의 이름

공개 방법

정적 생성VocabRemapping
생성 ( 범위 범위, Operand < TString > newVocabFile, Operand < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Options... 옵션)
새로운 generateVocabRemapping 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.
출력 < TInt32 >
num현재 ()
이전 어휘에서 발견된 새로운 어휘 항목의 수입니다.
정적 생성VocabRemapping.Options
oldVocabSize (긴 oldVocabSize)
출력 < TInt64 >
다시 매핑 ()
인덱스 i의 요소가 새 ID i에 매핑되는 이전 ID와 동일한 길이 num_new_vocab의 텐서.

상속된 메서드

상수

공개 정적 최종 문자열 OP_NAME

TensorFlow 코어 엔진에서 알려진 이 작업의 이름

상수 값: "GenerateVocabRemapping"

공개 방법

공개 정적 생성VocabRemapping 생성 ( 범위 범위, Operand < TString > newVocabFile, Operand < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, 옵션... 옵션)

새로운 generateVocabRemapping 작업을 래핑하는 클래스를 생성하는 팩토리 메서드입니다.

매개변수
범위 현재 범위
새로운Vocab파일 새 어휘 파일의 경로입니다.
오래된Vocab파일 이전 어휘 파일의 경로입니다.
newVocabOffset 읽기를 시작할 새 어휘 파일의 항목 수입니다.
numNewVocab 다시 매핑할 새 어휘 파일의 항목 수입니다.
옵션 선택적 속성 값을 전달합니다.
보고
  • 생성VocabRemapping의 새로운 인스턴스

공개 출력 < TInt32 > numPresent ()

이전 어휘에서 발견된 새로운 어휘 항목의 수입니다.

공개 정적 생성VocabRemapping.Options oldVocabSize (Long oldVocabSize)

매개변수
오래된Vocab크기 고려할 이전 어휘 파일의 항목 수입니다. -1이면 이전 어휘 전체를 사용합니다.

공개 출력 < TInt64 > 재매핑 ()

인덱스 i의 요소가 새 ID i에 매핑되는 이전 ID와 동일한 길이 num_new_vocab의 텐서. 이 요소는 이전 어휘에서 찾을 수 없는 새 ID의 경우 -1입니다.