<p dir="ltr"><b><i>RUS</i></b></p><p dir="ltr"><b>Последнее обновление: 13/09/2023</b></p><p dir="ltr">Набор данных предназначен для разработки русскоязычных диалоговых систем (чат-ботов, вопросно-ответных систем и т. д.) о расстройствах аутистического спектра. Источник текстов: https://aspergers.ru</p><p dir="ltr">Проект реализуется победителем конкурса «Практики личной филантропии и альтруизма» Благотворительного фонда Владимира Потанина.</p><p dir="ltr">75% данных собраны с помощью платформы Toloka.</p><p dir="ltr"><b>Состав набора данных:</b></p><p dir="ltr">1. original.json: оригинальная версия датасета</p><p dir="ltr">2. multiple.json: версия датасета с несколькими вариантами ответа</p><p dir="ltr">3. short.json: версия датасета с укороченными ответами</p><p dir="ltr">4. half_sized.json: версия датасета содержит 50% собранных данных</p><p dir="ltr">5. no_impossible.json: версия содержит только релевантные вопросы</p><p dir="ltr">7. age_dataset.tsv: набор данных для определения возраста пользователя (можно использовать для кастомизации моделей)</p><p dir="ltr"><b><i>ENG</i></b></p><p dir="ltr">A dataset for question-answering used for building an informational Russian language chatbot for the inclusion of people with autism spectrum disorder and Asperger syndrome in particular, based on data from the following website: https://aspergers.ru.</p><p dir="ltr"><b>The detailed dataset statistics:</b></p><table><tr><th><p dir="ltr"><b><i>Parameter</i></b></p></th><th><p dir="ltr"><b><i>Description</i></b></p></th></tr><tr><td><p dir="ltr">The number of QA pairs</p></td><td><p>4,138</p></td></tr><tr><td><p dir="ltr">The number of irrelevant questions</p></td><td><p>352</p></td></tr><tr><td><p dir="ltr">The average question length</p></td><td><p dir="ltr">53 symbols / 8 words</p></td></tr><tr><td><p dir="ltr">The average answer length</p></td><td><p dir="ltr">141 symbols / 20 words</p></td></tr><tr><td><p dir="ltr">The average reading paragraph length</p></td><td><p dir="ltr">453 symbols / 63 words</p></td></tr><tr><td><p dir="ltr">Max question length</p></td><td><p dir="ltr">226 symbols / 32 words</p></td></tr><tr><td><p dir="ltr">Max answer length</p></td><td><p dir="ltr">555 symbols / 85 words</p></td></tr><tr><td><p dir="ltr">Max reading paragraph length</p></td><td><p dir="ltr">551 symbols / 94 words</p></td></tr><tr><td><p dir="ltr">Min question length</p></td><td><p dir="ltr">9 symbols / 2 words</p></td></tr><tr><td><p dir="ltr">Min answer length</p></td><td><p dir="ltr">5 symbols / 1 words</p></td></tr><tr><td><p dir="ltr">Min reading paragraph length</p></td><td><p dir="ltr">144 symbols / 17 words</p></td></tr></table><p dir="ltr"><b>The dataset has several versions:</b></p><p dir="ltr">1. Original version</p><p dir="ltr">2. Half-sized version (50% of the original data)</p><p dir="ltr">3. No impossible version (a version without irrelevant/impossible questions)</p><p dir="ltr">4. Short version (a version with shorterned answers)</p><p dir="ltr">5. Multiple version (a version with several answers, all the other versions contain only one answer to each question)</p>