1/1

6 files

Autism Spectrum Disorder and Asperger Syndrome Question Answering Dataset 1.0

Version 19 2022-07-04, 14:04

Version 18 2022-07-04, 13:55

Version 17 2022-07-04, 13:55

Version 16 2022-07-04, 13:05

Version 15 2022-07-03, 19:24

Version 14 2022-07-01, 08:47

Version 13 2022-06-30, 14:05

Version 12 2022-06-29, 18:39

Version 11 2022-05-23, 20:53

Version 10 2021-09-30, 11:10

Version 9 2021-07-15, 16:05

Version 8 2021-05-16, 17:17

Version 7 2021-05-16, 17:16

Version 6 2021-02-01, 08:58

Version 5 2021-02-01, 08:51

Version 4 2021-02-01, 08:50

Version 3 2021-02-01, 08:42

Version 2 2020-11-27, 11:53

Version 1 2020-11-27, 11:51

dataset

posted on 2022-07-04, 14:04 authored by Victoria FirsanovaVictoria Firsanova

RUS

Последнее обновление: 13/09/2023

Набор данных предназначен для разработки русскоязычных диалоговых систем (чат-ботов, вопросно-ответных систем и т. д.) о расстройствах аутистического спектра. Источник текстов: https://aspergers.ru

Проект реализуется победителем конкурса «Практики личной филантропии и альтруизма» Благотворительного фонда Владимира Потанина.

75% данных собраны с помощью платформы Toloka.

Состав набора данных:

1. original.json: оригинальная версия датасета

2. multiple.json: версия датасета с несколькими вариантами ответа

3. short.json: версия датасета с укороченными ответами

4. half_sized.json: версия датасета содержит 50% собранных данных

5. no_impossible.json: версия содержит только релевантные вопросы

7. age_dataset.tsv: набор данных для определения возраста пользователя (можно использовать для кастомизации моделей)

ENG

A dataset for question-answering used for building an informational Russian language chatbot for the inclusion of people with autism spectrum disorder and Asperger syndrome in particular, based on data from the following website: https://aspergers.ru.

The detailed dataset statistics:

*Parameter*	*Description*
The number of QA pairs	4,138
The number of irrelevant questions	352
The average question length	53 symbols / 8 words
The average answer length	141 symbols / 20 words
The average reading paragraph length	453 symbols / 63 words
Max question length	226 symbols / 32 words
Max answer length	555 symbols / 85 words
Max reading paragraph length	551 symbols / 94 words
Min question length	9 symbols / 2 words
Min answer length	5 symbols / 1 words
Min reading paragraph length	144 symbols / 17 words

The dataset has several versions:

1. Original version

2. Half-sized version (50% of the original data)

3. No impossible version (a version without irrelevant/impossible questions)

4. Short version (a version with shorterned answers)

5. Multiple version (a version with several answers, all the other versions contain only one answer to each question)

History

Usage metrics

Keywords

Russian Language Question-answering systems.Natural Language Processing Tool inclusive education autism disorders Natural Language Processing Mental Health Health Care

Licence

MIT

Exports

RefWorks

BibTeX

Ref. manager

Endnote

DataCite

NLM