Autism Spectrum Disorder and Asperger Syndrome Question Answering Dataset 1.0
RUS
Последнее обновление: 13/09/2023
Набор данных предназначен для разработки русскоязычных диалоговых систем (чат-ботов, вопросно-ответных систем и т. д.) о расстройствах аутистического спектра. Источник текстов: https://aspergers.ru
Проект реализуется победителем конкурса «Практики личной филантропии и альтруизма» Благотворительного фонда Владимира Потанина.
75% данных собраны с помощью платформы Toloka.
Состав набора данных:
1. original.json: оригинальная версия датасета
2. multiple.json: версия датасета с несколькими вариантами ответа
3. short.json: версия датасета с укороченными ответами
4. half_sized.json: версия датасета содержит 50% собранных данных
5. no_impossible.json: версия содержит только релевантные вопросы
7. age_dataset.tsv: набор данных для определения возраста пользователя (можно использовать для кастомизации моделей)
ENG
A dataset for question-answering used for building an informational Russian language chatbot for the inclusion of people with autism spectrum disorder and Asperger syndrome in particular, based on data from the following website: https://aspergers.ru.
The detailed dataset statistics:
Parameter | Description |
---|---|
The number of QA pairs | 4,138 |
The number of irrelevant questions | 352 |
The average question length | 53 symbols / 8 words |
The average answer length | 141 symbols / 20 words |
The average reading paragraph length | 453 symbols / 63 words |
Max question length | 226 symbols / 32 words |
Max answer length | 555 symbols / 85 words |
Max reading paragraph length | 551 symbols / 94 words |
Min question length | 9 symbols / 2 words |
Min answer length | 5 symbols / 1 words |
Min reading paragraph length | 144 symbols / 17 words |
The dataset has several versions:
1. Original version
2. Half-sized version (50% of the original data)
3. No impossible version (a version without irrelevant/impossible questions)
4. Short version (a version with shorterned answers)
5. Multiple version (a version with several answers, all the other versions contain only one answer to each question)