Dataset for Query-based Multi-Document Summarization

This repository contains versions of automatically generated datasets for abstractive and extractive query-based multi-document summarization as described in AQuaMuSe paper.

High-level Notes:

Dependencies: Documents URLs references the Common Crawl June 2017 Archive.
Data Format:
- Directory structure:
  - Each dataset release with have two top-level folders: abstractive and extractive.
  - Each top-level folder contains three sub-folders for train, dev and test examples.
- File format: TFrecords.
- Fields:
  - query: input query to be used as summarization context. This is a single valued byte_list feature, derived from Natural Questions user queries.
  - input_urls: List of URLs to input documents pointing to Common Crawl to be summarized. Each URL is separated with a special token separator <EOD>.
  - target: Summarization target, derived from Natural Questions long answers.

Disclaimer

This is not an official Google product.

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
v2		v2
v3		v3
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Dataset for Query-based Multi-Document Summarization

Disclaimer

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

Dataset for Query-based Multi-Document Summarization

Disclaimer

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Packages