Skip to content

Latest commit

 

History

History

data

Размеченные данные на токсичность контента

toxicRUCommentsOriginalDF.csv

Это оригинальный датасет (без примененных каких либо трансформаций) c Kaggle «Russian Language Toxic Comments».

toxicRUCommentsCleanedDF.csv

Это датасет c Kaggle «Russian Language Toxic Comments», к которому применены NLP-техники по очистке текста (смотри файл clean_df_ru_texts.py).

toxicENcommentsOriginalDF.csv

Это англоязычный датасет с Kaggle Toxic Comment Classification Challenge.

toxicRUCommentsTranslatedCleanedDF.csv

Это англоязычный датасет с Kaggle Toxic Comment Classification Challenge, над текстами которого сделали машинный перевод на русский язык с помощью библиотек argostranslate (offline) (версия модели была взята English => Russian), TextBlob (Google Translate API) и googletrans (Google Translate API), а после над переведенным вариантом текстов сделали чистку и нормализацию слов. Весь описанный алгоритм представлен в файле translate_clean_df_en_texts.py.