Dada una ruta a archivos de vocabulario nuevos y antiguos, devuelve un tensor de reasignación de
longitud `num_new_vocab`, donde `remapping[i]` contiene el número de fila en el vocabulario antiguo que corresponde a la fila `i` en el nuevo vocabulario (comenzando en la línea `new_vocab_offset` y hasta las entidades `num_new_vocab`), o `- 1` si la entrada `i` en el vocabulario nuevo no está en el vocabulario antiguo. El vocabulario antiguo está restringido a las primeras entradas de `old_vocab_size` si `old_vocab_size` no es el valor predeterminado de -1.
`num_vocab_offset` permite el uso en el caso de variable particionada y, por lo general, debe configurarse examinando la información de partición. El formato de los archivos debe ser un archivo de texto, y cada línea debe contener una única entidad dentro del vocabulario.
Por ejemplo, con `new_vocab_file` un archivo de texto que contiene cada uno de los siguientes elementos en una sola línea: `[f0, f1, f2, f3]`, old_vocab_file = [f1, f0, f3], `num_new_vocab = 3, new_vocab_offset = 1`, la reasignación devuelta sería `[0, -1, 2]`.
La operación también devuelve un recuento de cuántas entradas del nuevo vocabulario estaban presentes en el vocabulario antiguo, que se utiliza para calcular la cantidad de valores a inicializar en una reasignación de matriz de peso.
Esta funcionalidad se puede utilizar para reasignar vocabularios de filas (normalmente, características) y vocabularios de columnas (normalmente, clases) desde los puntos de control de TensorFlow. Tenga en cuenta que la lógica de partición se basa en vocabularios contiguos correspondientes a variables particionadas por divisiones. Además, la reasignación subyacente usa una IndexTable (a diferencia de una CuckooTable inexacta), por lo que el código del cliente debe usar el index_table_from_file() correspondiente como lo hace el marco FeatureColumn (a diferencia de tf.feature_to_id(), que usa una CuckooTable).
Clases anidadas
clase | GenerateVocabRemapping.Opciones | Atributos opcionales para GenerateVocabRemapping |
Constantes
Cadena | OP_NOMBRE | El nombre de esta operación, como lo conoce el motor central de TensorFlow. |
Métodos públicos
GenerateVocabRemapping estático | |
Salida < TInt32 > | numPresente () Número de entradas de vocabulario nuevas encontradas en vocabulario antiguo. |
Estático GenerateVocabRemapping.Options | oldVocabSize (Long oldVocabSize) |
Salida < TInt64 > | reasignación () Un tensor de longitud num_new_vocab donde el elemento en el índice i es igual al ID anterior que se asigna al nuevo ID i. |
Métodos heredados
Constantes
Cadena final estática pública OP_NAME
El nombre de esta operación, como lo conoce el motor central de TensorFlow.
Métodos públicos
public static GenerateVocabRemapping crear ( alcance alcance , Operando < TString > newVocabFile, Operando < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opciones... opciones)
Método de fábrica para crear una clase que envuelve una nueva operación GenerateVocabRemapping.
Parámetros
alcance | alcance actual |
---|---|
nuevoVocabFile | Ruta al nuevo archivo de vocabulario. |
antiguoVocabFile | Ruta al antiguo archivo de vocabulario. |
nuevoVocabOffset | Cuántas entradas en el nuevo archivo de vocabulario para comenzar a leer. |
numNuevoVocab | Número de entradas en el nuevo archivo de vocabulario para reasignar. |
opciones | lleva valores de atributos opcionales |
Devoluciones
- una nueva instancia de GenerateVocabRemapping
Salida pública < TInt32 > numPresent ()
Número de entradas de vocabulario nuevas encontradas en vocabulario antiguo.
público estático GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)
Parámetros
antiguoVocabTamaño | Número de entradas en el archivo de vocabulario antiguo a considerar. Si -1, utilice todo el vocabulario antiguo. |
---|