figshare
Browse
1/1
6 files

Autism Spectrum Disorder and Asperger Syndrome Question Answering Dataset 1.0

Version 19 2022-07-04, 14:04
Version 18 2022-07-04, 13:55
Version 17 2022-07-04, 13:55
Version 16 2022-07-04, 13:05
Version 15 2022-07-03, 19:24
Version 14 2022-07-01, 08:47
Version 13 2022-06-30, 14:05
Version 12 2022-06-29, 18:39
Version 11 2022-05-23, 20:53
Version 10 2021-09-30, 11:10
Version 9 2021-07-15, 16:05
Version 8 2021-05-16, 17:17
Version 7 2021-05-16, 17:16
Version 6 2021-02-01, 08:58
Version 5 2021-02-01, 08:51
Version 4 2021-02-01, 08:50
Version 3 2021-02-01, 08:42
Version 2 2020-11-27, 11:53
Version 1 2020-11-27, 11:51
dataset
posted on 2022-07-04, 14:04 authored by Victoria FirsanovaVictoria Firsanova

RUS

Последнее обновление: 13/09/2023

Набор данных предназначен для разработки русскоязычных диалоговых систем (чат-ботов, вопросно-ответных систем и т. д.) о расстройствах аутистического спектра. Источник текстов: https://aspergers.ru

Проект реализуется победителем конкурса «Практики личной филантропии и альтруизма» Благотворительного фонда Владимира Потанина.

75% данных собраны с помощью платформы Toloka.

Состав набора данных:

1. original.json: оригинальная версия датасета

2. multiple.json: версия датасета с несколькими вариантами ответа

3. short.json: версия датасета с укороченными ответами

4. half_sized.json: версия датасета содержит 50% собранных данных

5. no_impossible.json: версия содержит только релевантные вопросы

7. age_dataset.tsv: набор данных для определения возраста пользователя (можно использовать для кастомизации моделей)

ENG

A dataset for question-answering used for building an informational Russian language chatbot for the inclusion of people with autism spectrum disorder and Asperger syndrome in particular, based on data from the following website: https://aspergers.ru.

The detailed dataset statistics:

Parameter

Description

The number of QA pairs

4,138

The number of irrelevant questions

352

The average question length

53 symbols / 8 words

The average answer length

141 symbols / 20 words

The average reading paragraph length

453 symbols / 63 words

Max question length

226 symbols / 32 words

Max answer length

555 symbols / 85 words

Max reading paragraph length

551 symbols / 94 words

Min question length

9 symbols / 2 words

Min answer length

5 symbols / 1 words

Min reading paragraph length

144 symbols / 17 words

The dataset has several versions:

1. Original version

2. Half-sized version (50% of the original data)

3. No impossible version (a version without irrelevant/impossible questions)

4. Short version (a version with shorterned answers)

5. Multiple version (a version with several answers, all the other versions contain only one answer to each question)

History