data_utils.py

from public_arts_app.models import Answers, Questions, InferenceOrder
from public_arts_app.models import PolicyStateActionPolicyStateAction, StateState, Questions, Answers, SurveyQuestions, GetnextquestionAskedquestion as gnq,\
AnswerquestionRespondedanswer as aqra, CreateparticipantParticipant as cpp, ParticipantSurveyQuestions as psq, SurveyAnswers, InferenceOrder, SpecialInferences
import pandas as pd
from public_arts_app.models import database
import pdb

def write_answers(df):
    for idx, row in df.iterrows():
        aid = row['answer_id']
        a = Answers.get_or_none(answer_id = aid)
        if not a:
            continue
        # if a.answer_text:
        #     continue
        print(row['answer_id'])
        print(row['answer_text'])
        a.answer_text = row['answer_text']
        a.save(only=[Answers.answer_text])

def write_questions(df):
    #df = pd.read_csv("public_arts_app/datasets/final_annotations_transformed.csv")
    for idx, row in df.iterrows():
        sk = row['survey_key']
        q = Questions.get_or_none(survey_key = sk)
        if not q:
            continue
        q.infered_text = row['infered_text']
        #q.inferedby_text = row['question_inferenceby']
        #q.question_category = row['question type']
        q.save(only=[Questions.infered_text])

def insert_inf_order():
    group_size = 3
    sequences = [
        [1,2,3],
        [1,3,2],
        [3,1,2],
        [3,2,1],
        [2,3,1],
        [2,1,3]
    ]
    values = [(",".join([str(val) for val in s]),group_size) for s in sequences]
    InferenceOrder.insert_many(values, fields = [InferenceOrder.inference_sequence, InferenceOrder.inference_group_size]).execute()

def write_answer_specials():
    # excluded_vars = ["WKSWORKORG", "WRKOFFER", "STATECERT", "ACTSAME", "WHYUNEMP", "WNFTLOOK", "NILFACT", "UHRSWORKT", "EDDIPGED",
    #                      "EDHGCGED", "DIFFHEAR", "DIFFEYE", "DIFFREM", "DIFFPHYS", "DIFFCARE", "DIFFMOB", "DIFFANY",
    #                      "NMOTHERS", "NFATHERS", "AHRSWORKT", "EDHGCGED"]
    # df = pd.read_csv("public_arts_app/datasets/special_answers.csv")
    # special_answers = []
    # for idx, row in df.iterrows():
    #     if row['do not infer'] == 0 or row['survey_key'] in excluded_vars:
    #         Questions.update({Questions.infer: 0}).where(Questions.question_id == row['question_id']).execute()
    #     if row['infer'] == 0 or row['do not infer'] == 0:
    #         Answers.update({Answers.infer: 0}).where(Answers.answer_id == row['answer_id']).execute()
    #     if row['infer'] == 1:
    #         special_answers.append((row['answer_id'], row['infered_text']))
    #SpecialInferences.insert_many(special_answers, fields = [SpecialInferences.answer_id, SpecialInferences.inference_text]).execute()
    pass

def get_study1_data():
    study_num = '1'
    qa = gnq.select(Questions.question_text.alias('question_text'),
                Questions.survey_key.alias('survey_key'),
                Answers.answer_text.alias('answer_text'),
                aqra.answer_id.alias('answer_id'),
                Answers.value.alias('answer_value'),
                cpp.user_id.alias('user_id'),
                cpp.uuid.alias('participant_id'),
                cpp.done
                ).join(Questions, on=(
    gnq.question_id==Questions.question_id)).switch(gnq).join(
        aqra, on=(gnq.gnq_id==aqra.gnq_id)).join(
        Answers, on=(aqra.answer_id==Answers.answer_id)).switch(gnq).join(
            cpp, on=(gnq.user_id==cpp.user_id)
        ).where((cpp.study_num == study_num) & (cpp.done == 1)).dicts()

    dfq = pd.DataFrame(list(qa))
    user_ids = dfq['user_id'].unique().tolist()

    qa_inference = psq.select(Questions.question_text.alias('question_text'),
                            Answers.answer_text.alias('answer_text'),
                            Questions.survey_key.alias('survey_key'),
                            psq.inference_answer_id.alias('answer_id'),
                            psq.inference_question_id,
                            psq.inference_question_category.alias('question_category'),
                            psq.answer_text.alias('share_decision'),
                            psq.inference_correct.alias('inference_correct'),
                            psq.user_id.alias('user_id')
                            ).join(
        Questions,on = (psq.inference_question_id==Questions.question_id)).switch(
            psq).join(Answers, on=(psq.inference_answer_id==Answers.answer_id)).switch(
                psq).join(cpp, on=(psq.user_id==cpp.user_id)).where(cpp.user_id.in_(user_ids)).dicts()

    qa_survey = SurveyQuestions.select(
                    SurveyQuestions.question_text,
                    SurveyQuestions.question_options,
                    SurveyQuestions.sq_id,
                    SurveyAnswers.answer_text,
                    SurveyAnswers.user_id.alias('user_id')
                ).join(SurveyAnswers, on=(SurveyQuestions.sq_id==SurveyAnswers.sq_id)
                ).join(cpp, on=SurveyAnswers.user_id==cpp.user_id).where(cpp.user_id.in_(user_ids)).dicts()


    df_inference = pd.DataFrame(list(qa_inference))
    df_survey = pd.DataFrame(list(qa_survey))
    user_ids = df_inference[~pd.isna(df_inference['inference_correct'])]['user_id'].unique()
    dfq = dfq[dfq['user_id'].isin(user_ids)]
    df_inference = df_inference[df_inference['user_id'].isin(user_ids)]
    df_survey = df_survey[df_survey['user_id'].isin(user_ids)]
    return dfq, df_inference, df_survey


def get_study2_data(for_analysis = False):
    #cutoff = datetime(2023, 7, 26, 15, 0, 0, 0)
    study_num = str(2)
    database.connect(reuse_if_open=True)
    qa = gnq.select(Questions.question_text.alias('question_text'),
                    Questions.survey_key.alias('survey_key'),
                    Answers.answer_text.alias('answer_text'),
                    aqra.answer_id.alias('answer_id'),
                    Answers.value.alias('answer_value'),
                    cpp.user_id.alias('user_id'),
                    cpp.uuid.alias('participant_id'),
                    cpp.user_condition,
                    cpp.done
                    ).join(Questions, on=(
        gnq.question_id==Questions.question_id)).switch(gnq).join(
            aqra, on=(gnq.gnq_id==aqra.gnq_id)).join(
            Answers, on=(aqra.answer_id==Answers.answer_id)).switch(gnq).join(
                cpp, on=(gnq.user_id==cpp.user_id)
            ).where((cpp.study_num == study_num) & (cpp.done == 1)).dicts()

    dfq = pd.DataFrame(list(qa))
    user_ids = dfq['user_id'].unique().tolist()


    qa_inference = psq.select(Questions.question_category.alias('inferenceby_category'),
                              Questions.question_text.alias('inferenceby_question_text'),
                            psq.inferedby_answer_id,
                            psq.inferedby_question_id,
                            psq.inference_question_id,
                            psq.inference_answer_id,
                            psq.inference_question_category.alias('inference_category'),
                            psq.answer_text.alias('share_decision'),
                            psq.inference_correct.alias('inference_correct'),
                            psq.user_id.alias('user_id'),
                            cpp.user_condition.alias('inference_condition') # 1,2,3,4
                            ).join(
        Questions,on = (psq.inferedby_question_id==Questions.question_id)).switch(
                psq).join(cpp, on=(psq.user_id==cpp.user_id)).where(cpp.user_id.in_(user_ids)).dicts()

    qdict = pd.DataFrame(Questions.select(Questions.question_id, Questions.question_text).dicts())


    qa_survey = SurveyQuestions.select(
                    SurveyQuestions.question_text,
                    SurveyQuestions.question_options,
                    SurveyQuestions.sq_id,
                    SurveyAnswers.answer_text,
                    cpp.user_condition,
                    cpp.user_id
                ).join(SurveyAnswers, on=(SurveyQuestions.sq_id==SurveyAnswers.sq_id)
                ).join(cpp, on=SurveyAnswers.user_id==cpp.user_id).where(cpp.user_id.in_(user_ids)).dicts()
    df_inference = pd.DataFrame(list(qa_inference))
    df_inference['inference_question_text'] = df_inference['inference_question_id'].apply(lambda k: qdict[qdict['question_id'] == int(k)]['question_text'].iloc[0])
    df_inference['inferenceby_question_text'] = df_inference['inferedby_question_id'].apply(lambda k: qdict[qdict['question_id'] == int(k)]['question_text'].iloc[0])

    cat_map = {1: "arts", 2: "ads", 3: "protected", 4: "no_inference"}
    df_inference['inference_category'] = df_inference['inference_category'].apply(lambda k: cat_map[k])
    df_inference['inference_condition_name'] = df_inference['inference_condition'].apply(lambda k: cat_map[k])
    df_survey = pd.DataFrame(list(qa_survey))
    if for_analysis:
        #df_inference.loc[df_inference['inference_condition'] == 4, 'inferenceby_category'] = 'Invalid'
        df_inference.loc[df_inference['inference_condition'] == 4, 'inference_correct'] = 3
        df_inference.loc[df_inference['inference_condition'] == 4, 'inference_condition'] = 0
        df_inference.loc[df_inference['inference_correct'] == 3, 'inference_correct'] = 0
        df_survey.loc[df_survey['user_condition'] == 4, 'user_condition'] = 0
    database.close()
    return dfq, df_inference, df_survey
    # dfs = df_survey[df_survey['sq_id'] == 10]
    # dfs['resp'] = dfs['answer_text'].apply(lambda k: re.findall("<b>([a-zA-Z ]+)</b>", k)[0])
    # dfs.groupby('resp').size()