Создает метки для выборки кандидатов с изученным униграммным распределением.
Сэмплер униграмм может использовать фиксированное распределение униграмм, считанное из файла или переданное в виде массива в памяти, вместо того, чтобы создавать распределение на основе данных на лету. Существует также возможность исказить распределение, применив к весам степень искажения.
Файл словаря должен быть в формате CSV, где в последнем поле указывается вес, связанный со словом.
Для каждой партии эта операция выбирает один набор выборочных меток-кандидатов.
Преимущества отбора кандидатов для каждой партии — это простота и возможность эффективного умножения плотных матриц. Недостаток заключается в том, что выбранные кандидаты должны выбираться независимо от контекста и истинных ярлыков.
Вложенные классы
сорт | ИсправленоUnigramCandidateSampler.Options | Дополнительные атрибуты для FixedUnigramCandidateSampler |
Константы
Нить | OP_NAME | Название этой операции, известное основному движку TensorFlow. |
Публичные методы
статический фиксированныйUnigramCandidateSampler | create ( Область действия, Операнд <TInt64> trueClasses, Long numTrue, Long numSampled, Boolean unique, Long rangeMax, Options... options) Фабричный метод для создания класса, обертывающего новую операцию FixUnigramCandidateSampler. |
статический фиксированныйUnigramCandidateSampler.Options | искажение (плавающее искажение) |
статический фиксированныйUnigramCandidateSampler.Options | numReservedIds (длинное значение numReservedIds) |
статический фиксированныйUnigramCandidateSampler.Options | numShards (длинное число осколков) |
Вывод < TInt64 > | выбранные кандидаты () Вектор длиной num_sampled, в котором каждый элемент является идентификатором выбранного кандидата. |
Вывод <TFloat32> | семпледожидаемый каунт () Вектор длиной num_sampled для каждого выбранного кандидата, представляющий ожидаемое количество раз, которое кандидат появится в пакете выбранных кандидатов. |
статический фиксированныйUnigramCandidateSampler.Options | семя (длинное семя) |
статический фиксированныйUnigramCandidateSampler.Options | семя2 (длинное семя2) |
статический фиксированныйUnigramCandidateSampler.Options | осколок (длинный осколок) |
Вывод <TFloat32> | trueExpectedCount () Матрица Batch_size * num_true, представляющая ожидаемое количество раз, которое каждый кандидат будет встречаться в пакете выбранных кандидатов. |
статический фиксированныйUnigramCandidateSampler.Options | униграммы (List<Float> униграммы) |
статический фиксированныйUnigramCandidateSampler.Options | vocabFile (Строка vocabFile) |
Унаследованные методы
Константы
общедоступная статическая финальная строка OP_NAME
Название этой операции, известное основному движку TensorFlow.
Публичные методы
общедоступный статический фиксированныйUnigramCandidateSampler create (область области действия , операнд <TInt64> trueClasses, Long numTrue, Long numSampled, Boolean unique, Long rangeMax, Options... options)
Фабричный метод для создания класса, обертывающего новую операцию FixUnigramCandidateSampler.
Параметры
объем | текущий объем |
---|---|
истинные классы | Матрица Batch_size * num_true, в которой каждая строка содержит идентификаторы целевых_классов num_true в соответствующей исходной метке. |
числоTrue | Количество истинных меток на контекст. |
numSampled | Количество кандидатов для случайной выборки. |
уникальный | Если значение unique истинно, мы выполняем выборку с отклонением, чтобы все выбранные кандидаты в пакете были уникальными. Это требует некоторого приближения для оценки вероятностей выборки после отклонения. |
диапазонМакс. | Сэмплер будет выбирать целые числа из интервала [0, range_max). |
параметры | содержит значения необязательных атрибутов |
Возврат
- новый экземпляр FixUnigramCandidateSampler
общедоступное статическое искажение FixUnigramCandidateSampler.Options (искажение с плавающей запятой)
Параметры
искажение | Искажение используется для искажения распределения вероятностей униграмм. Каждый вес сначала увеличивается до степени искажения, а затем добавляется к внутреннему распределению униграмм. В результате искажение = 1,0 дает регулярную выборку униграмм (как определено в файле словаря), а искажение = 0,0 дает равномерное распределение. |
---|
общедоступный статический фиксированныйUnigramCandidateSampler.Options numReservedIds (Long numReservedIds)
Параметры
numReservedIds | При желании пользователи могут добавить некоторые зарезервированные идентификаторы в диапазоне [0, ..., num_reserved_ids). Один из вариантов использования заключается в том, что в качестве идентификатора 0 используется специальный токен неизвестного слова. Вероятность выборки этих идентификаторов будет равна 0. |
---|
общедоступный статический фиксированныйUnigramCandidateSampler.Options numShards (Long numShards)
Параметры
число осколков | Сэмплер можно использовать для выборки из подмножества исходного диапазона, чтобы ускорить все вычисления за счет параллелизма. Этот параметр (вместе с «shard») указывает количество разделов, которые используются в общих вычислениях. |
---|
публичный вывод <TInt64> sampledCandidates ()
Вектор длиной num_sampled, в котором каждый элемент является идентификатором выбранного кандидата.
публичный вывод <TFloat32> sampledExpectedCount ()
Вектор длиной num_sampled для каждого выбранного кандидата, представляющий ожидаемое количество раз, которое кандидат появится в пакете выбранных кандидатов. Если unique=true, то это вероятность.
общедоступное статическое семя FixUnigramCandidateSampler.Options (длинное семя)
Параметры
семя | Если для начального числа или начального числа2 задано ненулевое значение, генератор случайных чисел заполняется данным начальным числом. В противном случае он засеивается случайным семенем. |
---|
общедоступный статический фиксированныйUnigramCandidateSampler.Options семя2 (длинное семя2)
Параметры
семя2 | Второе семя, чтобы избежать столкновения семян. |
---|
общедоступный статический осколок FixUnigramCandidateSampler.Options (длинный осколок)
Параметры
осколок | Сэмплер можно использовать для выборки из подмножества исходного диапазона, чтобы ускорить все вычисления за счет параллелизма. Этот параметр (вместе с «num_shards») указывает конкретный номер раздела операции сэмплера, когда используется секционирование. |
---|
публичный вывод <TFloat32> trueExpectedCount ()
Матрица Batch_size * num_true, представляющая ожидаемое количество раз, которое каждый кандидат будет встречаться в пакете выбранных кандидатов. Если unique=true, то это вероятность.
общедоступные статические униграммы FixUnigramCandidateSampler.Options (униграммы List<Float>)
Параметры
униграммы | Список количества или вероятностей униграмм, по одному на каждый идентификатор в последовательном порядке. В эту операцию следует передать ровно один из vocab_file и униграмм. |
---|
общедоступный статический фиксированныйUnigramCandidateSampler.Options vocabFile (String vocabFile)
Параметры
vocabFile | Каждая допустимая строка в этом файле (который должен иметь формат, подобный CSV) соответствует допустимому идентификатору слова. Идентификаторы располагаются последовательно, начиная с num_reserved_ids. Ожидается, что последняя запись в каждой строке будет значением, соответствующим количеству или относительной вероятности. В эту операцию необходимо передать ровно один из vocab_file и униграмм. |
---|