GenerateVocabRemapping

clase final pública GenerateVocabRemapping

Dada una ruta a archivos de vocabulario nuevos y antiguos, devuelve un tensor de reasignación de

longitud `num_new_vocab`, donde `remapping[i]` contiene el número de fila en el vocabulario antiguo que corresponde a la fila `i` en el nuevo vocabulario (comenzando en la línea `new_vocab_offset` y hasta las entidades `num_new_vocab`), o `- 1` si la entrada `i` en el vocabulario nuevo no está en el vocabulario antiguo. El vocabulario antiguo está restringido a las primeras entradas de `old_vocab_size` si `old_vocab_size` no es el valor predeterminado de -1.

`num_vocab_offset` permite el uso en el caso de variable particionada y, por lo general, debe configurarse examinando la información de partición. El formato de los archivos debe ser un archivo de texto, y cada línea debe contener una única entidad dentro del vocabulario.

Por ejemplo, con `new_vocab_file` un archivo de texto que contiene cada uno de los siguientes elementos en una sola línea: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, la reasignación devuelta sería `[0, -1, 2]`.

La operación también devuelve un recuento de cuántas entradas del nuevo vocabulario estaban presentes en el vocabulario antiguo, que se utiliza para calcular la cantidad de valores a inicializar en una reasignación de matriz de peso.

Esta funcionalidad se puede utilizar para reasignar vocabularios de filas (normalmente, características) y vocabularios de columnas (normalmente, clases) desde los puntos de control de TensorFlow. Tenga en cuenta que la lógica de partición se basa en vocabularios contiguos correspondientes a variables particionadas por divisiones. Además, la reasignación subyacente usa una IndexTable (a diferencia de una CuckooTable inexacta), por lo que el código del cliente debe usar el index_table_from_file() correspondiente como lo hace el marco FeatureColumn (a diferencia de tf.feature_to_id(), que usa una CuckooTable).

Clases anidadas

clase GenerateVocabRemapping.Opciones Atributos opcionales para GenerateVocabRemapping

Constantes

Cadena OP_NOMBRE El nombre de esta operación, como lo conoce el motor central de TensorFlow.

Métodos públicos

GenerateVocabRemapping estático
crear (alcance alcance , Operando < TString > newVocabFile, Operando < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opciones... opciones)
Método de fábrica para crear una clase que envuelve una nueva operación GenerateVocabRemapping.
Salida < TInt32 >
numPresente ()
Número de entradas de vocabulario nuevas encontradas en vocabulario antiguo.
Estático GenerateVocabRemapping.Options
oldVocabSize (Long oldVocabSize)
Salida < TInt64 >
reasignación ()
Un tensor de longitud num_new_vocab donde el elemento en el índice i es igual al ID anterior que se asigna al nuevo ID i.

Métodos heredados

Constantes

Cadena final estática pública OP_NAME

El nombre de esta operación, como lo conoce el motor central de TensorFlow.

Valor constante: "GenerateVocabRemapping"

Métodos públicos

public static GenerateVocabRemapping crear ( alcance alcance , Operando < TString > newVocabFile, Operando < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opciones... opciones)

Método de fábrica para crear una clase que envuelve una nueva operación GenerateVocabRemapping.

Parámetros
alcance alcance actual
nuevoVocabFile Ruta al nuevo archivo de vocabulario.
antiguoVocabFile Ruta al antiguo archivo de vocabulario.
nuevoVocabOffset Cuántas entradas en el nuevo archivo de vocabulario para comenzar a leer.
numNuevoVocab Número de entradas en el nuevo archivo de vocabulario para reasignar.
opciones lleva valores de atributos opcionales
Devoluciones
  • una nueva instancia de GenerateVocabRemapping

Salida pública < TInt32 > numPresent ()

Número de entradas de vocabulario nuevas encontradas en vocabulario antiguo.

público estático GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)

Parámetros
antiguoVocabTamaño Número de entradas en el archivo de vocabulario antiguo a considerar. Si -1, utilice todo el vocabulario antiguo.

Salida pública < TInt64 > reasignación ()

Un tensor de longitud num_new_vocab donde el elemento en el índice i es igual al ID anterior que se asigna al nuevo ID i. Este elemento es -1 para cualquier ID nuevo que no se encuentre en el vocabulario anterior.