voxforge

  • Mô tả :

VoxForge là một bộ dữ liệu phân loại ngôn ngữ. Nó bao gồm các clip âm thanh do người dùng gửi lên trang web. Trong bản phát hành này, dữ liệu từ 6 ngôn ngữ được thu thập - tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Đức, tiếng Nga và tiếng Ý. Vì trang web được cập nhật liên tục và để tái tạo, bản phát hành này chỉ chứa các bản ghi được gửi trước ngày 01/01/2020. Các mẫu được phân chia giữa đào tạo, xác nhận và thử nghiệm để các mẫu từ mỗi loa thuộc về chính xác một phần chia.

  • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

  • Trang chủ : http://www.voxforge.org/

  • Mã nguồn : tfds.audio.Voxforge

  • Phiên bản :

    • 1.0.0 (mặc định): Không có ghi chú phát hành.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : Unknown size

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    VoxForge yêu cầu tải xuống thủ công kho lưu trữ âm thanh. Bạn có thể tìm thấy danh sách đầy đủ các kho lưu trữ tại https://storage.googleapis.com/tfds-data/downloads/voxforge/voxforge_urls.txt Có thể tải xuống bằng cách sử dụng lệnh sau: wget -i voxforge_urls.txt -x Lưu ý rằng việc tải xuống và xây dựng tập dữ liệu cục bộ yêu cầu ~100GB dung lượng ổ đĩa (nhưng chỉ ~60GB sẽ được sử dụng vĩnh viễn).

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không xác định

  • Chia tách :

Tách ra ví dụ
  • Cấu trúc tính năng :
FeaturesDict({
    'audio': Audio(shape=(None,), dtype=int64),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'speaker_id': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
âm thanh âm thanh (Không có,) int64
nhãn mác LớpNhãn int64
speaker_id tenxơ sợi dây
@article{maclean2018voxforge,
  title={Voxforge},
  author={MacLean, Ken},
  journal={Ken MacLean.[Online]. Available: http://www.voxforge.org/home.[Acedido em 2012]},
  year={2018}
}