add lab1

2023-11-30 20:24:45 +02:00 · 2023-11-30 20:24:45 +02:00 · 61313c1e87
commit 61313c1e87
11 changed files with 46108 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1 @@
 Lab1/Figures/
--- a/Lab1/2.1/bike_test.csv
+++ b/Lab1/2.1/bike_test.csv
--- a/Lab1/2.1/bike_train.csv
+++ b/Lab1/2.1/bike_train.csv
--- a/Lab1/2.1/main.py
+++ b/Lab1/2.1/main.py
@ -0,0 +1,245 @@
 import pandas as pd
 from pandas import DataFrame
 import numpy as np
 import matplotlib.pyplot as plt
 import seaborn as sns
 from sklearn.linear_model import LinearRegression
 from sklearn.metrics import r2_score
 train_df = pd.read_csv("bike_train.csv")
 test_df = pd.read_csv("bike_test.csv")
 # 1.
 if False:
    print("Feature count:", len(train_df.columns))
    print("Training set size: ", len(train_df.index))
    print("Test set size: ", len(test_df.index))
    plt.scatter(train_df['Temperature'], train_df['Rented_Bike_Count'], color='blue', alpha=0.5)
    plt.xlabel('Temperature')
    plt.ylabel('Rented_Bike_Count')
    plt.title('Temperature vs. Rented_Bike_Count')
    plt.grid()
    plt.show()
 # 2.
 if False:
    plt.scatter(train_df['Visibility'], train_df['Rented_Bike_Count'], color='blue', alpha=0.5)
    plt.xlabel('Visibility')
    plt.ylabel('Rented_Bike_Count')
    plt.title('Visibility vs. Rented_Bike_Count')
    plt.grid()
    plt.show()
    plt.scatter(train_df['Rainfall'], train_df['Rented_Bike_Count'], color='blue', alpha=0.5)
    plt.xlabel('Rainfall')
    plt.ylabel('Rented_Bike_Count')
    plt.title('Rainfall vs. Rented_Bike_Count')
    plt.grid()
    plt.show()
 train_df = train_df.drop(columns=['Date'])
 test_df = test_df.drop(columns=['Date'])
 # 3.
 if False:
    sns.heatmap(train_df.drop(columns=["Functioning_Day", "Holiday", "Seasons"]).corr(), annot=True)
    plt.show()
    lm_fit = LinearRegression().fit(train_df[['Temperature', 'Dew_point_temperature']], train_df['Rented_Bike_Count'])
    plt.scatter(train_df['Temperature'], train_df['Dew_point_temperature'], color='blue', alpha=0.5)
    plt.xlabel('Temperature')
    plt.ylabel('Dew_point_temperature')
    plt.title('Temperature vs. Dew_point_temperature')
    plt.grid()
    plt.show()
    # plt.scatter(train_df['Visibility'], train_df['Humidity'], color='blue', alpha=0.5)
    # plt.xlabel('Visibility')
    # plt.ylabel('Humidity')
    # plt.title('Visibility vs. Humidity')
    # plt.grid()
    # plt.show()
 train_df = pd.get_dummies(data=train_df, drop_first=True)
 test_df  = pd.get_dummies(data=test_df, drop_first=True)
 # 4.
 if False:
    X_train = train_df.drop(columns=['Rented_Bike_Count'])
    X_test = test_df.drop(columns=['Rented_Bike_Count'])
    lm_fit = LinearRegression().fit(X_train, train_df['Rented_Bike_Count'])
    # plt.scatter(train_df['Rented_Bike_Count'], lm_fit.predict(train_df.drop(columns=['Rented_Bike_Count'])), color='blue', alpha=0.5, s=3)
    # plt.xlabel('True Rented_Bike_Count values (Training data)')
    # plt.ylabel('Predicted Rented_Bike_Count values')
    # plt.ylim(-1000, 2000)
    # plt.plot([0, 1000], [0, 1000], color='red', linewidth=3)
    # plt.title('Predicted vs. True Rented_Bike_Count')
    # plt.grid()
    # plt.show()
    plt.scatter(test_df['Rented_Bike_Count'], lm_fit.predict(X_test), color='blue', alpha=0.5, s=3)
    plt.xlabel('True Rented_Bike_Count')
    plt.ylabel('Predicted Rented_Bike_Count')
    #plt.ylim(-1000, 2000)
    plt.plot([0, 1000], [0, 1000], color='red', linewidth=3)
    plt.title('Predicted vs. True Rented_Bike_Count')
    plt.grid()
    plt.show()
    y_pred = lm_fit.predict(test_df.drop(columns=['Rented_Bike_Count']))
    r_squared = r2_score(test_df['Rented_Bike_Count'], y_pred)
    print(f'R-squared: {r_squared}')
    print('RMSE: %.2f' % np.sqrt(np.mean((y_pred-test_df['Rented_Bike_Count'])**2)))
 train_df[f"Rented_Bike_Count"]=np.log(train_df["Rented_Bike_Count"] + 1)
 test_df[f"Rented_Bike_Count"]=np.log(test_df["Rented_Bike_Count"] + 1)
 # 5.
 if False:
    X_train = train_df.drop(columns=['Rented_Bike_Count'])
    X_test = test_df.drop(columns=['Rented_Bike_Count'])
    y_train = np.log(train_df["Rented_Bike_Count"] + 1)
    y_test = np.log(test_df["Rented_Bike_Count"] + 1)
    lm_fit = LinearRegression().fit(X_train, train_df['Rented_Bike_Count'])
    y_pred = lm_fit.predict(X_test)
    r_squared = r2_score(test_df['Rented_Bike_Count'], y_pred)
    print(f'R-squared: {r_squared}')
    print('RMSE: %.2f' % np.sqrt(np.mean((y_pred-test_df['Rented_Bike_Count'])**2)))
    plt.scatter(test_df['Rented_Bike_Count'], y_pred, color='blue', alpha=0.5, s=3)
    plt.xlabel('True log(Rented_Bike_Count+1)')
    plt.ylabel('Predicted log(Rented_Bike_Count+1)')
    #plt.ylim(-2.5, 10)
    plt.plot([4, 7.5], [4, 7.5], color='red', linewidth=2)
    plt.title('Predicted vs. True log(Rented_Bike_Count+1)')
    plt.grid()
    plt.show()
 def append_plus_column(dataframe: DataFrame, column_a, column_b):
    dataframe[f"{column_a}_plus_{column_b}"] = dataframe.apply(lambda row: row[column_a] + row[column_b], axis=1)
 def append_plus_mul_column(dataframe: DataFrame, column_a, column_b):
    dataframe[f"{column_a}_plus_mul_{column_b}"] = dataframe.apply(lambda row: row[column_a] + row[column_b] + row[column_a]*row[column_b], axis=1)
 def append_log_column(dataframe: DataFrame, column):
    dataframe[f"{column}_log"]=np.log(dataframe[column])
 def append_sqrt_column(dataframe: DataFrame, column):
    dataframe[f"{column}_sqrt"]=np.sqrt(dataframe[column])
 def append_square_column(dataframe: DataFrame, column):
    dataframe[f"{column}_square"]=np.square(dataframe[column])
 def iter_transformations(dataframe: DataFrame):
    for column_idx in range(len(dataframe.columns)):
        name = dataframe.columns[column_idx]
        column_contains_zero     = any(v == 0 for v in dataframe[name])
        column_contains_negative = any(v < 0  for v in dataframe[name])
        if not column_contains_zero:
            yield (f"{name}_log", lambda df: append_log_column(df, name))
        if not column_contains_negative:
            yield (f"{name}_sqrt", lambda df: append_sqrt_column(df, name))
        yield (f"{name}_square", lambda df: append_square_column(df, name))
        # for other_column_idx in range(column_idx+1, len(dataframe.columns)):
        #     other_name = dataframe.columns[other_column_idx]
        #     yield (f"{name}_plus_{other_name}", lambda df: append_plus_column(df, name, other_name))
        #     yield (f"{name}_plus_mul_{other_name}", lambda df: append_plus_mul_column(df, name, other_name))
 def calc_r2_squared(transform_func):
    X_train = train_df.drop(columns=['Rented_Bike_Count'])
    X_test  = test_df.drop(columns=['Rented_Bike_Count'])
    y_train = train_df['Rented_Bike_Count']
    y_test  = test_df['Rented_Bike_Count']
    transform_func(X_train)
    transform_func(X_test)
    lm_fit = LinearRegression().fit(X_train, y_train)
    y_pred = lm_fit.predict(X_test)
    r_squared = r2_score(y_test, y_pred)
    return r_squared
 # 6.
 if False:
    init_X_train = train_df.drop(columns=['Rented_Bike_Count'])
    init_X_test  = test_df.drop(columns=['Rented_Bike_Count'])
    init_y_train = train_df['Rented_Bike_Count']
    init_y_test  = test_df['Rented_Bike_Count']
    results = []
    columns = train_df.drop(columns=['Rented_Bike_Count']).columns
    print(len(columns))
    for column_a_idx in range(len(columns)):
        column_a = columns[column_a_idx]
        for column_b_idx in range(column_a_idx+1, len(columns)):
            column_b = columns[column_b_idx]
            r2_plus = calc_r2_squared(lambda df: append_plus_column(df, column_a, column_b))
            r2_plus_mul = calc_r2_squared(lambda df: append_plus_mul_column(df, column_a, column_b))
            results.append((column_a, column_b, r2_plus, r2_plus_mul))
    results.sort(key=lambda e: e[2]-e[3])
    for (column_a, column_b, r2_plus, r2_plus_mul) in results[:10]:
        print(column_a, column_b, r2_plus, r2_plus_mul, r2_plus_mul - r2_plus)
    # for df in [X_train, X_test]:
        #append_plus_mul_column(df, "Humidity", "Visibility")
        #append_plus_column(df, "Humidity", "Visibility")
        #append_plus_mul_column(df, "Dew_point_temperature", "Rainfall")
        #append_plus_column(df, "Dew_point_temperature", "Rainfall")
        # pass
    # lm_fit = LinearRegression().fit(X_train, y_train)
    # y_pred = lm_fit.predict(X_test)
    # r_squared = r2_score(y_test, y_pred)
    # print(f'R-squared: {r_squared}')
    # plt.scatter(y_train, lm_fit.predict(X_train), color='blue', alpha=0.5)
    # plt.xlabel('True Rented_Bike_Count values')
    # plt.ylabel('Predicted Rented_Bike_Count values')
    # plt.ylim(-7.5, 10)
    # plt.plot([0, 10], [0, 10], color='red', linewidth=3)
    # plt.title('Predicted vs. True Rented_Bike_Count')
    # plt.grid()
    # plt.show()
 # 7.
 if True:
    r2_list = []
    for (transform_name, transform_func) in iter_transformations(train_df.drop(columns=['Rented_Bike_Count'])):
        r2_list.append((transform_name, calc_r2_squared(lambda _: _), calc_r2_squared(transform_func)))
    r2_list.sort(key=lambda e: e[1]-e[2])
    for a in r2_list[:10]:
        print(f"{a[0]:30} {a[1]:.6f} {a[2]:.6f} {a[2]-a[1]:.6f}")
    # X_train = train_df.drop(columns=['Rented_Bike_Count'])
    # X_test  = test_df.drop(columns=['Rented_Bike_Count'])
    # y_train = train_df['Rented_Bike_Count']
    # y_test  = test_df['Rented_Bike_Count']
    # for df in [X_train, X_test]:
    #     append_sqrt_column(df, "Rainfall")
    #     append_sqrt_column(df, "Humidity")
    #     append_square_column(df, "Visibility")
    # lm_fit = LinearRegression().fit(X_train, y_train)
    # y_pred = lm_fit.predict(X_test)
    # r_squared = r2_score(y_test, y_pred)
    # print(f'R-squared: {r_squared}')
    # plt.scatter(y_train, lm_fit.predict(X_train), color='blue', alpha=0.5)
    # plt.xlabel('True Rented_Bike_Count values')
    # plt.ylabel('Predicted Rented_Bike_Count values')
    # plt.ylim(-7.5, 10)
    # plt.plot([0, 10], [0, 10], color='red', linewidth=3)
    # plt.title('Predicted vs. True Rented_Bike_Count')
    # plt.grid()
    # plt.show()
--- a/Lab1/3.1/main.py
+++ b/Lab1/3.1/main.py
@ -0,0 +1,264 @@
 import pandas as pd
 from sklearn.preprocessing import StandardScaler
 from sklearn.linear_model import LogisticRegression
 from sklearn.model_selection import train_test_split
 from sklearn.metrics import confusion_matrix, accuracy_score
 import matplotlib.pyplot as plt
 from sklearn.metrics import classification_report
 from sklearn.metrics import roc_curve, auc, roc_auc_score
 import numpy as np
 import seaborn as sns
 from scipy.stats import boxcox
 def normalize_column(column):
    min_value = min(column)
    max_value = max(column)
    return (column-min_value)/(max_value-min_value)
 # 1.
 main_df = pd.read_csv("music_spotify.csv")
 # https://developer.spotify.com/documentation/web-api/reference/get-audio-features
 #print(len(main_df.columns))
 # 2.
 if False:
    main_df["duration_ms_01"] = normalize_column(main_df["duration_ms"])
    for column_name in ["acousticness", "danceability", "energy", "instrumentalness", "duration_ms"]:
        main_df[main_df["target"] == 0][column_name].plot.density(color="green", label="0")
        main_df[main_df["target"] == 1][column_name].plot.density(color="red", label="1")
        plt.title(f"Density plot ({column_name} vs target)")
        plt.legend(loc='center left', bbox_to_anchor=(1.0, 0.5), title="target", framealpha=0);
        plt.xlabel(column_name)
        plt.grid()
        plt.show()
 # 3.
 if False:
    # main_df["loudness_01"] = normalize_column(main_df["loudness"])
    # main_df["tempo_01"] = normalize_column(main_df["tempo"])
    for column_name in ["liveness", "loudness", "speechiness", "tempo", "valence"]:
        main_df[main_df["target"] == 0][column_name].plot.density(color="green", label="0")
        main_df[main_df["target"] == 1][column_name].plot.density(color="red", label="1")
        plt.title(f"Density plot ({column_name} vs target)")
        plt.legend(loc='center left', bbox_to_anchor=(1.0, 0.5), title="target", framealpha=0);
        plt.xlabel(column_name)
        plt.grid()
        plt.show()
 # 4.
 if False:
    for column_name in ["key", "mode", "time_signature"]:
        df_new = main_df[[column_name, "target"]].pivot_table(columns=column_name, index="target", aggfunc=len, fill_value=0).T#.apply(lambda x: x/sum(x), axis=1)
        ax = df_new.plot.bar(stacked=True)
        ax.set_xticklabels(ax.get_xticklabels(), rotation=0)
        plt.style.use('ggplot')
        plt.legend(loc='center left', bbox_to_anchor=(1.0, 0.5), title="target", framealpha=0);
        plt.ylabel("occurrences")
        plt.title(f"Bar graph ({column_name} vs target)")
        plt.show()
 # 5.
 # Explain parts 1-4 in report
 # 6.
 X_train, X_test, y_train, y_test = train_test_split(main_df.drop(columns=["target", "X", "song_title", "artist"]), main_df["target"], test_size=0.3)
 if False:
    # Initialize the scaler
    scaler = StandardScaler()
    # Fit the scaler and transform the features
    scaler.fit(X_train)
    X_train_scaled=scaler.transform(X_train)
    X_test_scaled=scaler.transform(X_test)
    # Now use the scaled features to train your logistic regression model
    model = LogisticRegression()
    model.fit(X_train_scaled, y_train)
    preds = model.predict(X_test_scaled)
    preds_probs = model.predict_proba(X_test_scaled)[:, 1]
    print(classification_report(y_test, np.where(preds_probs > 0.5, 1, 0)))
    conf_matrix = confusion_matrix(y_test, preds)
    print("----- Confusion matrix ---------")
    print("        Predicted 0, Predicted 1")
    print(f"True 0 {conf_matrix[0,0]:12d}, {conf_matrix[0,1]:12d}")
    print(f"True 1 {conf_matrix[1,0]:12d}, {conf_matrix[1,1]:12d}")
    print("---------- Coeffs --------------")
    print(model.coef_[0])
    # Use sigmoid for equation
 # 7.
 if False:
    # Initialize the scaler
    scaler = StandardScaler()
    # Fit the scaler and transform the features
    scaler.fit(X_train)
    X_train_scaled=scaler.transform(X_train)
    X_test_scaled=scaler.transform(X_test)
    # Now use the scaled features to train your logistic regression model
    model = LogisticRegression()
    model.fit(X_train_scaled, y_train)
    preds_probs = model.predict_proba(X_test_scaled)[:, 1]
    for threshold in [0.3, 0.4, 0.5]:
        preds = np.where(preds_probs > threshold, 1, 0)
        print(f"=========== THRESHOLD: {threshold} ===========")
        print(classification_report(y_test, preds))
        conf_matrix = confusion_matrix(y_test, preds)
        print("----- Confusion matrix ---------")
        print("        Predicted 0, Predicted 1")
        print(f"True 0 {conf_matrix[0,0]:12d}, {conf_matrix[0,1]:12d}")
        print(f"True 1 {conf_matrix[1,0]:12d}, {conf_matrix[1,1]:12d}")
 # 8.
 if False:
    def get_accuracy(X_train, X_test, y_train, y_test):
        # Initialize the scaler
        scaler = StandardScaler()
        # Fit the scaler and transform the features
        scaler.fit(X_train)
        X_train_scaled=scaler.transform(X_train)
        X_test_scaled=scaler.transform(X_test)
        # Now use the scaled features to train your logistic regression model
        model = LogisticRegression()
        model.fit(X_train_scaled, y_train)
        preds = model.predict(X_test_scaled)
        #return accuracy_score(y_test, preds)
        return  np.mean(preds == y_test)
    iterations = 50
    diffs = {}
    for column_name in X_train.columns:
        diffs[column_name] = 0
    for _ in range(iterations):
        X_train, X_test, y_train, y_test = train_test_split(main_df.drop(columns=["target", "X", "song_title", "artist"]), main_df["target"], test_size=0.3)
        baseline_accuracy = get_accuracy(X_train, X_test, y_train, y_test)
        for column_name in X_train.columns:
            accuracy = get_accuracy(X_train.drop(columns=[column_name]), X_test.drop(columns=[column_name]), y_train, y_test)
            diffs[column_name] += (accuracy - baseline_accuracy)
            #diffs.append((column_name, accuracy - baseline_accuracy))
    diffs_array = list(diffs.items())
    diffs_array.sort(key=lambda e: -e[1])
    for (column_name, diff) in diffs_array:
        print(f"{column_name:20} {diff / iterations}")
 # 9.
 if True:
    # plt.figure(figsize=(8, 6))
    # sns.heatmap(main_df.drop(columns=["X", "song_title", "artist"]).corr(), annot=True, cmap='coolwarm', fmt=".2f")
    # plt.title("Correlation Matrix")
    # plt.show()
    # main_df["duration_ms"] = normalize_column(main_df["duration_ms"])
    # main_df["loudness"] = normalize_column(main_df["loudness"])
    # main_df["tempo"] = normalize_column(main_df["tempo"])
    # main_df.drop(columns=["X"]).boxplot()
    # plt.show()
    transformations = {
        "log": (
            lambda column: np.log(column + 0.1),
            lambda column: all(v > 0 for v in column)
        ),
        "square": (
            lambda column: np.square(column),
            lambda column: True
        ),
        "sqrt": (
            lambda column: np.sqrt(column),
            lambda column: all(v >= 0 for v in column)
        ),
        "sqrt3": (
            lambda column: np.float_power(column, 1/3),
            lambda column: all(v >= 0 for v in column)
        ),
        "exp": (
            lambda column: np.exp(column),
            lambda column: all(v <= 1000 for v in column)
        )
    }
    results = []
    for column_name in X_train.columns:
        for (transform_name, (transform, criteria)) in transformations.items():
            if not criteria(main_df[column_name]): continue
            new_X_train = X_train.copy()
            new_X_test = X_test.copy()
            new_X_train[f"{column_name}_{transform_name}"] = transform(X_train[column_name])
            new_X_test[f"{column_name}_{transform_name}"]  = transform(X_test[column_name])
            scaler = StandardScaler()
            scaler.fit(new_X_train)
            X_train_scaled=scaler.transform(new_X_train)
            X_test_scaled=scaler.transform(new_X_test)
            model = LogisticRegression()
            model.fit(X_train_scaled, y_train)
            preds_probs = model.predict_proba(X_test_scaled)[:, 1]
            result_entry = {
                "column": column_name,
                "transform": transform_name,
                "thresholds": {},
            }
            results.append(result_entry)
            for threshold in [0.3, 0.5, 0.7]:
                preds = np.where(preds_probs > threshold, 1, 0)
                confusion = confusion_matrix(y_test, preds)
                diag_values = np.diag(confusion)
                row_sums = np.sum(confusion, axis=1)
                percentage_accuracy = (diag_values / row_sums)
                result_entry["thresholds"][threshold] = {
                    "overall_accuracy": np.mean(y_test == preds),
                    "class0_accuracy": percentage_accuracy[0],
                    "class1_accuracy": percentage_accuracy[1],
                }
    results.sort(key=lambda e: -max(a["overall_accuracy"] for a in e["thresholds"].values()))
    best_result = results[0]
    for result in results[:5]:
        print("------")
        print("column", result["column"], result["transform"])
        for threshold in result["thresholds"].keys():
            print(f'[{threshold}] class0_accuracy  {result["thresholds"][threshold]["class0_accuracy"]:.6f}', )
            print(f'[{threshold}] class1_accuracy  {result["thresholds"][threshold]["class1_accuracy"]:.6f}')
            print(f'[{threshold}] overall_accuracy {result["thresholds"][threshold]["overall_accuracy"]:.6f}')
        #print("error_rate", result["error_rate"])
    # print("======================")
    # print("overall_accuracy", best_result["overall_accuracy"])
    # print("class0_accuracy", best_result["class0_accuracy"])
    # print("class1_accuracy", best_result["class1_accuracy"])
    # print("error_rate", best_result["error_rate"])
    # print("threshold", best_result["threshold"])
    # print("column", best_result["column"], best_result["transform"])
    # Calculate ROC curve and AUC
    # fpr, tpr, thresholds = roc_curve(y_test, best_result["probs"])
    # roc_auc = auc(fpr, tpr)
    # # Plot ROC curve
    # plt.figure(figsize=(5,5))
    # plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (AUC = {roc_auc:.2f})')
    # plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
    # plt.xlim([0.0, 1.0])
    # plt.ylim([0.0, 1.05])
    # plt.xlabel('False Positive Rate')
    # plt.ylabel('True Positive Rate')
    # plt.title('Receiver Operating Characteristic (ROC) Curve')
    # plt.legend(loc='lower right')
    # plt.show()
    # # Print AUC value
    # print("AUC:", roc_auc)
--- a/Lab1/3.1/music_spotify.csv
+++ b/Lab1/3.1/music_spotify.csv
--- a/Lab1/4.1/main.py
+++ b/Lab1/4.1/main.py
@ -0,0 +1,189 @@
 import pandas as pd
 import numpy as np
 import matplotlib.pyplot as plt
 import seaborn as sns  # Import seaborn for bar plotting
 from sklearn.model_selection import train_test_split
 from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
 from sklearn.metrics import accuracy_score, confusion_matrix
 # 1. Load the dataset
 train_df = pd.read_csv("sign_mnist_train.csv")
 test_df = pd.read_csv("sign_mnist_test.csv")
 # for df in [train_df, test_df]:
 #     for column in df.columns[1:]:
 #         df.loc[abs(df[column] - 160) <= 5, column] = 0
 if False:
    # Create a 4x4 grid of subplots
    fig, axes = plt.subplots(4, 4, figsize=(8, 8))
    plt.subplots_adjust(wspace=0, hspace=0)  # Adjust spacing
    df_by_label = test_df[test_df["label"] == 1][:16]
    indices = list(range(16))
    for i, ax in zip(indices, axes.ravel()):
        hand_sign = np.array(df_by_label.iloc[i, 1:])
        hand_sign = hand_sign.reshape(28, 28)
        ax.imshow(hand_sign, cmap='gray', aspect='auto')
        ax.axis('off') # Hide axis labels
    plt.show()
 X_train, X_test = train_df.drop(columns=["label"]), test_df.drop(columns=["label"])
 y_train, y_test = train_df["label"], test_df["label"]
 # for hand_sign in range(26):
 #     count = len(train_df[train_df["label"] == hand_sign])
 #     print(f"[{hand_sign}] = {count}")
 # 2.
 if False:
    lda_classifier = LinearDiscriminantAnalysis()
    lda_classifier.fit(X_train, y_train)
    lda_predictions = lda_classifier.predict(X_test)
    lda_confusion_matrix = confusion_matrix(y_test, lda_predictions)
    lda_accuracy = np.mean(y_test == lda_predictions)
    set_of_signs = list(set(lda_predictions))
    lda_class_accuracies = [lda_confusion_matrix[i, i] / np.sum(lda_confusion_matrix[i, :]) for i in range(len(lda_confusion_matrix))]
    print(f"LDA Overall Accuracy: {lda_accuracy*100:.2f}")
    print("LDA Class-Specific Accuracies:")
    for i, acc in enumerate(lda_class_accuracies):
        print(f"Class {set_of_signs[i]}: {acc*100:.2f}")
 def remove_every_nth_column(df, count):
    return df.loc[:, (np.arange(len(df.columns)) + 1) % count != 0]
 def leave_every_nth_column(df, count):
    return df.loc[:, (np.arange(len(df.columns)) + 1) % count == 0]
 def iter_operations(train_df, test_df):
    for i in range(2, 20):
        yield (
            f"remove_every_nth_column_{i}",
            remove_every_nth_column(train_df, i),
            remove_every_nth_column(test_df, i)
        )
    for i in range(2, 20):
        yield (
            f"leave_every_nth_column_{i}",
            leave_every_nth_column(train_df, i),
            leave_every_nth_column(test_df, i)
        )
 # 3
 if False:
    def get_overall_accuracy(X_train, X_test, y_train, y_test):
        lda_classifier = LinearDiscriminantAnalysis()
        lda_classifier.fit(X_train, y_train)
        lda_predictions = lda_classifier.predict(X_test)
        lda_accuracy = np.mean(y_test == lda_predictions)
        return lda_accuracy
    init_X_train = X_train.copy()
    init_X_test  = X_test.copy()
    # ('leave_every_nth_column_5', 0.6002509760178472)
    init_X_train = leave_every_nth_column(init_X_train, 5)
    init_X_test = leave_every_nth_column(init_X_test, 5)
    # ('remove_every_nth_column_15', 0.6167038482989403)
    init_X_train = remove_every_nth_column(init_X_train, 15)
    init_X_test = remove_every_nth_column(init_X_test, 15)
    # ('remove_every_nth_column_14', 0.6179587283881762)
    init_X_train = remove_every_nth_column(init_X_train, 14)
    init_X_test = remove_every_nth_column(init_X_test, 14)
    # ('remove_every_nth_column_11', 0.6183770217512549)
    init_X_train = remove_every_nth_column(init_X_train, 11)
    init_X_test = remove_every_nth_column(init_X_test, 11)
    print(len(init_X_train.columns))
    indices = list(int(c[5:]) for c in init_X_train.columns)
    print(indices)
    for y in range(28):
        for x in range(28):
            if y*28+x+1 in indices:
                print("1; ", end='')
            else:
                print("0; ", end='')
        print("")
    # results = []
    # for (name, reduced_X_train, reduced_X_test) in iter_operations(init_X_train, init_X_test):
    #     accuracy = get_overall_accuracy(reduced_X_train, reduced_X_test, y_train, y_test)
    #     results.append((name, accuracy))
    print(get_overall_accuracy(init_X_train, init_X_test, y_train, y_test))
    # results.sort(key=lambda e: -e[1])
    # # print(results[0])
    # for (name, accuracy) in results[:8]:
    #     print(name, accuracy)
 # 4
 if False:
    qda_classifier = QuadraticDiscriminantAnalysis()
    qda_classifier.fit(X_train, y_train)
    qda_predictions = qda_classifier.predict(X_test)
    qda_accuracy = np.mean(y_test == qda_predictions)
    qda_confusion_matrix = confusion_matrix(y_test, qda_predictions)
    qda_class_accuracies = [qda_confusion_matrix[i, i] / np.sum(qda_confusion_matrix[i, :]) for i in range(len(qda_confusion_matrix))]
    print(f"QDA Overall Accuracy: {qda_accuracy*100:.2f}%")
    print("QDA Class-Specific Accuracies:")
    for i, acc in enumerate(qda_class_accuracies):
        print(f"Class {i}: {acc*100:.2f}%")
 # 5
 if True:
    def get_overall_accuracy(X_train, X_test, y_train, y_test):
        qda_classifier = QuadraticDiscriminantAnalysis()
        qda_classifier.fit(X_train, y_train)
        qda_predictions = qda_classifier.predict(X_test)
        qda_accuracy = np.mean(y_test == qda_predictions)
        return qda_accuracy
    init_X_train = X_train.copy()
    init_X_test  = X_test.copy()
    # remove_every_nth_column_3 0.7632459564974903
    init_X_train = remove_every_nth_column(init_X_train, 3)
    init_X_test = remove_every_nth_column(init_X_test, 3)
    # remove_every_nth_column_11 0.7717512548800892
    init_X_train = remove_every_nth_column(init_X_train, 11)
    init_X_test = remove_every_nth_column(init_X_test, 11)
    print(len(init_X_train.columns))
    # indices = list(int(c[5:]) for c in init_X_train.columns)
    # for y in range(28):
    #     for x in range(28):
    #         if y*28+x+1 in indices:
    #             print("1;", end='')
    #         else:
    #             print("0;", end='')
    #     print("")
    # results = []
    # for (name, reduced_X_train, reduced_X_test) in iter_operations(init_X_train, init_X_test):
    #     print(name)
    #     accuracy = get_overall_accuracy(reduced_X_train, reduced_X_test, y_train, y_test)
    #     results.append((name, accuracy))
    print(get_overall_accuracy(init_X_train, init_X_test, y_train, y_test))
    # results.sort(key=lambda e: -e[1])
    # for (name, accuracy) in results[:8]:
    #     print(name, accuracy)
--- a/Lab1/4.1/sign_mnist_test.csv
+++ b/Lab1/4.1/sign_mnist_test.csv
--- a/Lab1/4.1/sign_mnist_train.csv
+++ b/Lab1/4.1/sign_mnist_train.csv
--- a/Lab1/Extra.xlsx
+++ b/Lab1/Extra.xlsx
--- a/Lab1/Lab1_Rokas-Puzonas_IF-1-1.pdf
+++ b/Lab1/Lab1_Rokas-Puzonas_IF-1-1.pdf