- 설명 :
WikiBio는 Wikipedia 전기 페이지를 사용하여 구성되며 첫 번째 단락과 토큰화된 정보 상자를 포함합니다. 데이터 세트는 표준화된 테이블 형식을 따릅니다.
홈페이지 : https://github.com/DavidGrangier/wikipedia-biography-dataset
소스 코드 :
tfds.structured.WikiBio
버전 :
-
0.1.0
(기본값): 릴리스 정보가 없습니다.
-
다운로드 크기 :
318.53 MiB
데이터 세트 크기 :
795.98 MiB
자동 캐시 ( 문서 ): 아니요
분할 :
나뉘다 | 예 |
---|---|
'test' | 72,831 |
'train' | 582,659 |
'validation' | 72,831 |
- 기능 구조 :
FeaturesDict({
'input_text': FeaturesDict({
'context': string,
'table': Sequence({
'column_header': string,
'content': string,
'row_number': int16,
}),
}),
'target_text': string,
})
- 기능 문서 :
특징 | 수업 | 모양 | D타입 | 설명 |
---|---|---|---|---|
풍모Dict | ||||
input_text | 풍모Dict | |||
입력_텍스트/컨텍스트 | 텐서 | 끈 | ||
입력_텍스트/테이블 | 순서 | |||
input_text/테이블/column_header | 텐서 | 끈 | ||
input_text/테이블/콘텐츠 | 텐서 | 끈 | ||
입력_텍스트/테이블/행_번호 | 텐서 | 정수16 | ||
target_text | 텐서 | 끈 |
감독 키 (
as_supervised
문서 참조):('input_text', 'target_text')
그림 ( tfds.show_examples ): 지원되지 않습니다.
예 ( tfds.as_dataframe ):
- 인용 :
@inproceedings{lebret-etal-2016-neural,
title = "Neural Text Generation from Structured Data with Application to the Biography Domain",
author = "Lebret, R{'e}mi and
Grangier, David and
Auli, Michael",
booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
month = nov,
year = "2016",
address = "Austin, Texas",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/D16-1128",
doi = "10.18653/v1/D16-1128",
pages = "1203--1213",
}