Dada una ruta a archivos de vocabulario nuevos y antiguos, devuelve un tensor de reasignación de
length `num_new_vocab`, donde` remapping [i] `contiene el número de fila en el vocabulario antiguo que corresponde a la fila` i` en el nuevo vocabulario (comenzando en la línea `new_vocab_offset` y hasta` num_new_vocab` entidades), o `- 1` si la entrada `i` en el vocabulario nuevo no está en el vocabulario antiguo. El vocabulario antiguo se limita a las primeras entradas de `old_vocab_size` si` old_vocab_size` no es el valor predeterminado de -1.
`num_vocab_offset` habilita el uso en el caso de la variable particionada, y generalmente debe establecerse examinando la información de particionamiento. El formato de los archivos debe ser un archivo de texto, y cada línea debe contener una única entidad dentro del vocabulario.
Por ejemplo, con `new_vocab_file` un archivo de texto que contiene cada uno de los siguientes elementos en una sola línea:` [f0, f1, f2, f3] `, old_vocab_file = [f1, f0, f3],` num_new_vocab = 3, new_vocab_offset = 1`, la reasignación devuelta sería `[0, -1, 2]`.
La operación también devuelve un recuento de cuántas entradas en el vocabulario nuevo estaban presentes en el vocabulario anterior, que se usa para calcular el número de valores para inicializar en una reasignación de matriz de peso.
Esta funcionalidad se puede usar para reasignar vocabularios de fila (generalmente, características) y vocabularios de columna (generalmente, clases) de los puntos de control de TensorFlow. Tenga en cuenta que la lógica de partición se basa en vocabularios contiguos correspondientes a variables divididas en div. Además, la reasignación subyacente usa una IndexTable (a diferencia de una CuckooTable inexacta), por lo que el código del cliente debe usar la correspondiente index_table_from_file () como lo hace el marco FeatureColumn (a diferencia de tf.feature_to_id (), que usa una CuckooTable).
Clases anidadas
clase | GenerateVocabRemapping.Options | Los atributos opcionales para GenerateVocabRemapping |
Constantes
Cuerda | OP_NAME | El nombre de esta operación, como lo conoce el motor central de TensorFlow |
Métodos públicos
estática GenerateVocabRemapping | |
Salida < TInt32 > | numPresent () Número de nuevas entradas de vocabulario encontradas en vocabulario antiguo. |
estáticas GenerateVocabRemapping.Options | oldVocabSize (Long oldVocabSize) |
Salida < TInt64 > | reasignación () Un tensor de longitud num_new_vocab donde el elemento en el índice i es igual al ID antiguo que se asigna al nuevo ID i. |
Métodos heredados
Constantes
OP_NAME pública final static String
El nombre de esta operación, como lo conoce el motor central de TensorFlow
Métodos públicos
public static GenerateVocabRemapping crear ( Alcance alcance, operando < TString > newVocabFile, operando < TString > oldVocabFile, Long newVocabOffset, Long numNewVocab, Opciones ... Opciones)
Método de fábrica para crear una clase que envuelva una nueva operación GenerateVocabRemapping.
Parámetros
alcance | alcance actual |
---|---|
newVocabFile | Ruta al nuevo archivo de vocabulario. |
oldVocabFile | Ruta al archivo de vocabulario antiguo. |
newVocabOffset | Cuántas entradas en el nuevo archivo de vocabulario para comenzar a leer. |
numNewVocab | Número de entradas en el nuevo archivo de vocabulario para reasignar. |
opciones | lleva valores de atributos opcionales |
Devoluciones
- una nueva instancia de GenerateVocabRemapping
pública de salida < TInt32 > numPresent ()
Número de nuevas entradas de vocabulario encontradas en vocabulario antiguo.
public static GenerateVocabRemapping.Options oldVocabSize (Long oldVocabSize)
Parámetros
oldVocabSize | Número de entradas que se deben tener en cuenta en el archivo de vocabulario antiguo. Si es -1, usa todo el vocabulario antiguo. |
---|