figshare
Browse

Autism Spectrum Disorder and Asperger Syndrome Question Answering Dataset 1.0

Version 19 2022-07-04, 14:04
Version 18 2022-07-04, 13:55
Version 17 2022-07-04, 13:55
Version 16 2022-07-04, 13:05
Version 15 2022-07-03, 19:24
Version 14 2022-07-01, 08:47
Version 13 2022-06-30, 14:05
Version 12 2022-06-29, 18:39
Version 11 2022-05-23, 20:53
Version 10 2021-09-30, 11:10
Version 9 2021-07-15, 16:05
Version 8 2021-05-16, 17:17
Version 7 2021-05-16, 17:16
Version 6 2021-02-01, 08:58
Version 5 2021-02-01, 08:51
Version 4 2021-02-01, 08:50
Version 3 2021-02-01, 08:42
Version 2 2020-11-27, 11:53
Version 1 2020-11-27, 11:51
dataset
posted on 2022-07-04, 14:04 authored by Victoria FirsanovaVictoria Firsanova
<p dir="ltr"><b><i>RUS</i></b></p><p dir="ltr"><b>Последнее обновление: 13/09/2023</b></p><p dir="ltr">Набор данных предназначен для разработки русскоязычных диалоговых систем (чат-ботов, вопросно-ответных систем и т. д.) о расстройствах аутистического спектра. Источник текстов: https://aspergers.ru</p><p dir="ltr">Проект реализуется победителем конкурса «Практики личной филантропии и альтруизма» Благотворительного фонда Владимира Потанина.</p><p dir="ltr">75% данных собраны с помощью платформы Toloka.</p><p dir="ltr"><b>Состав набора данных:</b></p><p dir="ltr">1. original.json: оригинальная версия датасета</p><p dir="ltr">2. multiple.json: версия датасета с несколькими вариантами ответа</p><p dir="ltr">3. short.json: версия датасета с укороченными ответами</p><p dir="ltr">4. half_sized.json: версия датасета содержит 50% собранных данных</p><p dir="ltr">5. no_impossible.json: версия содержит только релевантные вопросы</p><p dir="ltr">7. age_dataset.tsv: набор данных для определения возраста пользователя (можно использовать для кастомизации моделей)</p><p dir="ltr"><b><i>ENG</i></b></p><p dir="ltr">A dataset for question-answering used for building an informational Russian language chatbot for the inclusion of people with autism spectrum disorder and Asperger syndrome in particular, based on data from the following website: https://aspergers.ru.</p><p dir="ltr"><b>The detailed dataset statistics:</b></p><table><tr><th><p dir="ltr"><b><i>Parameter</i></b></p></th><th><p dir="ltr"><b><i>Description</i></b></p></th></tr><tr><td><p dir="ltr">The number of QA pairs</p></td><td><p>4,138</p></td></tr><tr><td><p dir="ltr">The number of irrelevant questions</p></td><td><p>352</p></td></tr><tr><td><p dir="ltr">The average question length</p></td><td><p dir="ltr">53 symbols / 8 words</p></td></tr><tr><td><p dir="ltr">The average answer length</p></td><td><p dir="ltr">141 symbols / 20 words</p></td></tr><tr><td><p dir="ltr">The average reading paragraph length</p></td><td><p dir="ltr">453 symbols / 63 words</p></td></tr><tr><td><p dir="ltr">Max question length</p></td><td><p dir="ltr">226 symbols / 32 words</p></td></tr><tr><td><p dir="ltr">Max answer length</p></td><td><p dir="ltr">555 symbols / 85 words</p></td></tr><tr><td><p dir="ltr">Max reading paragraph length</p></td><td><p dir="ltr">551 symbols / 94 words</p></td></tr><tr><td><p dir="ltr">Min question length</p></td><td><p dir="ltr">9 symbols / 2 words</p></td></tr><tr><td><p dir="ltr">Min answer length</p></td><td><p dir="ltr">5 symbols / 1 words</p></td></tr><tr><td><p dir="ltr">Min reading paragraph length</p></td><td><p dir="ltr">144 symbols / 17 words</p></td></tr></table><p dir="ltr"><b>The dataset has several versions:</b></p><p dir="ltr">1. Original version</p><p dir="ltr">2. Half-sized version (50% of the original data)</p><p dir="ltr">3. No impossible version (a version without irrelevant/impossible questions)</p><p dir="ltr">4. Short version (a version with shorterned answers)</p><p dir="ltr">5. Multiple version (a version with several answers, all the other versions contain only one answer to each question)</p>

History

Related Materials

  1. 1.
    URL - References https://aspergers.ru