cnn_dailymail

  • Mô tả :

Bộ dữ liệu tóm tắt không ẩn danh của CNN/DailyMail.

Có hai tính năng: - bài báo: văn bản của bài báo, được sử dụng làm tài liệu được tóm tắt - điểm nổi bật: văn bản nổi bật được nối với xung quanh mỗi điểm nổi bật, là mục tiêu tóm tắt

Tách ra ví dụ
'test' 11.490
'train' 287.113
'validation' 13,368
  • Cấu trúc tính năng :
FeaturesDict({
    'article': Text(shape=(), dtype=string),
    'highlights': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'publisher': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
bài báo Chữ sợi dây
nổi bật Chữ sợi dây
Tôi Chữ sợi dây
nhà xuất bản Chữ sợi dây
  • trích dẫn :
@article{DBLP:journals/corr/SeeLM17,
  author    = {Abigail See and
               Peter J. Liu and
               Christopher D. Manning},
  title     = {Get To The Point: Summarization with Pointer-Generator Networks},
  journal   = {CoRR},
  volume    = {abs/1704.04368},
  year      = {2017},
  url       = {http://arxiv.org/abs/1704.04368},
  archivePrefix = {arXiv},
  eprint    = {1704.04368},
  timestamp = {Mon, 13 Aug 2018 16:46:08 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/SeeLM17},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

@inproceedings{hermann2015teaching,
  title={Teaching machines to read and comprehend},
  author={Hermann, Karl Moritz and Kocisky, Tomas and Grefenstette, Edward and Espeholt, Lasse and Kay, Will and Suleyman, Mustafa and Blunsom, Phil},
  booktitle={Advances in neural information processing systems},
  pages={1693--1701},
  year={2015}
}