diff --git a/rapport/images/dev-version-erreur-connexion.png b/rapport/images/dev-version-erreur-connexion.png
new file mode 100644
index 0000000000000000000000000000000000000000..4f7810fe94aec2dd388059a3d1dd3001f4bce24c
Binary files /dev/null and b/rapport/images/dev-version-erreur-connexion.png differ
diff --git a/rapport/images/non-dev-version-interface.png b/rapport/images/non-dev-version-interface.png
new file mode 100644
index 0000000000000000000000000000000000000000..3195fd710e2460ae42710422314df92784f16d6f
Binary files /dev/null and b/rapport/images/non-dev-version-interface.png differ
diff --git a/rapport/rapport.md b/rapport/rapport.md
index 272c26c74336092f0834b018fd78eaac0d3a5844..8239bc675bf3ee96e191d4c65726686de42792bc 100644
--- a/rapport/rapport.md
+++ b/rapport/rapport.md
@@ -1,70 +1,542 @@
 ---
-title: "Rapport du Projet d'IPBD"
+title: Rapport du Projet d'IPBD
 author:
-  - Alexandre FORT
   - Tessa DEPAOLI
   - Xavier DE WEERD
+  - Alexandre FORT
 lang: fr
-geometry: "top=2cm, bottom=2cm, left=2cm, right=2cm"
+geometry: top=2cm, bottom=2cm, left=2cm, right=2cm
 fontsize: 12pt
-linkcolor: "blue"
+linkcolor: blue
 toc: true
 toc-depth: 3
 titlepage: true
-papersize: "a4paper"
+papersize: a4paper
 ---
 # Analyse des tendances sur les animÃ©s
 
-## Objectif et mise en place
+```toc
+```
+
+## 1. Objectifs et mise en place
 
 ### Description des donnÃ©es et objectif
 
-Le dataset que nous avons choisi est le suivant : https://www.kaggle.com/datasets/dbdmobile/myanimelist-dataset/.
+Nous avons cherchÃ© des donnÃ©es d'au moins 2 Go, sans images car le traitement n'est pas le mÃªme.
+
+Le dataset que nous avons choisi fait 8 Go et porte sur les animÃ©s, trop bien : https://www.kaggle.com/datasets/dbdmobile/myanimelist-dataset/.
 
 Il s'agit de donnÃ©es sur les animÃ©s, les profils d'utilisateurs et les notations des utilisateurs de la plateforme [MyAnimeList](https://myanimelist.net/).
 
 Notre but est d'analyser ces donnÃ©es afin de trouver des tendances ou/et corrÃ©lation dans les donnÃ©es.
 
-Pour cela, on utilisera les outils prÃ©sentÃ©s pendant les diffÃ©rents ateliers en cherchant Ã  en exposer de nouveaux usages :
+Pour cela, on utilisera les outils suivants :
+
+- Python : pandas, seaborn
 - Docker
+- Hadoop
 - Hive
-- Spark
-- OpenSearch
-- OpenSearch Dashboards
+- Superset
 
-### Mise en place
+### DÃ©pÃ´t du projet et paquets
 
-On rÃ©cupÃ¨re le git du projet, contenant les scripts pour lancer le cluster Hive, Hadoop et OpenSearch :
+On s'assure d'avoir les paquets nÃ©cessaires :
+```shell
+sudo dnf install git wget unzip python3
+```
+
+Pour les utilisateurs :
+
+On rÃ©cupÃ¨re le git du projet. Ce dernier contient les scripts pour tÃ©lÃ©charger les donnÃ©es et lancer le cluster Hadoop et Hive :
 ```sh
 cd ~
 git clone https://git.iiens.net/de-weerd2022/projet-ipbd24.git
 ```
 
-On tÃ©lÃ©charge l'archive des donnÃ©es avec une requÃªte wget puis on l'extrait (script `download_dataset.sh`) :
+Pour les dÃ©veloppeurs :
+
+Afin de pouvoir travailler et effectuÃ© des changements sur le dÃ©pÃ´t du projet depuis la VM, on ajoute une clÃ© ssh de dÃ©ploiement sur gitlab dans "Settings>Repository>Deploy keys".
+
+On doit pour cela gÃ©nÃ©rer une clÃ© ssh, qu'on copie ensuite pour chaque utilisateur en prenant garde Ã  donnÃ©es les bonnes permissions.
+```shell
+sudo - su
+ssh-keygen -t rsa -b 4096
+cp /root/.ssh/id_rsa* /home/xavier/.ssh
+chown xavier:ensiie /home/xavier/.ssh/*
+cp /root/.ssh/id_rsa* /home/tessa/.ssh
+chown tessa:ensiie /home/tessa/.ssh/*
+cp /root/.ssh/id_rsa* /home/alexandre/.ssh
+chown alexandre:ensiie /home/alexandre/.ssh/*
+```
+
+On peut dÃ©sormais cloner le dÃ©pÃ´t en utilisant ssh, et push des modifications (pour les dÃ©veloppeurs, en tant qu'utilisateur du dÃ©pÃ´t le lien du git https suffit) :
+```shell
+git clone git@git.iiens.net:de-weerd2022/projet-ipbd24.git
+```
+
+La version accÃ©lÃ©rÃ©e du dÃ©ploiement est faisable en lisant uniquement la derniÃ¨re section `TL;DR`. Un grand nombre de script incluant les commandes qui vont suivre permettant cette accÃ©lÃ©ration.
+
+### Les donnÃ©es
+
+Afin de tÃ©lÃ©chargÃ© les donnÃ©es sur kaggle, on a obtenu une commande `wget` permettant de tÃ©lÃ©charger le fichier Ã  l'aide d'une extension de navigateur. Kaggle n'offrant pas de lien direct de tÃ©lÃ©chargement.
+
+Cette commande est dans le script `download_dataset.sh` :
+```shell
+wget --header="Host: storage.googleapis.com" --header="User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36" --header="Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.7" --header="Accept-Language: fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7,zh-TW;q=0.6,zh-CN;q=0.5,zh;q=0.4" --header="Referer: https://www.kaggle.com/" "https://storage.googleapis.com/kaggle-data-sets/3384322/6207733/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20240519%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20240519T145233Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=1ac8f9216a239f62f3aa19666ce2b09c188d1d34d5199cf254a3677292e1b893eb10d0e2280baf0cbfb1f21d38a2b99f55e3e080beaa4a376d07326750503e15f35e123e2efd21c2c300a82c5bc06c787528bbe5e0d6b7be5a31bc0e6fb458b9a59456233fb852c658827d1dd547ca683890de508dd88940526568357bdd28611409ed5db0e479abf7b6f98855cd942d0cebfae55d463f288640c594bce7e11cd9f460e941cec80a7713e7faa54e69e3e9c4e9e3cd87b11bc35aa74439f96f80c2d592c6a97519353ca099d62e7276bec190a99e9327aee45ab9531d86f8f6be65fb3931148dbd4342712849494a71adcfe0b4eb54051582393fe8a98ebf68bc" -c -O 'dataset.zip'
+```
+
+On tÃ©lÃ©charge l'archive des donnÃ©es avec la requÃªte wget puis on l'extrait :
 ```shell
 cd ~/projet-ipbd24
 ./download_dataset.sh
 ```
 
-[A CORRIGER]
-Les donnÃ©es sont dÃ©sormais dans le dossier `dataset/`, on utilisera les csv d'origine :
-- `anime-dataset-2023.csv` : informations sur les animÃ©s
-- `users-details-2023.csv` : informations sur les utilisateurs
-- `users-score-2023.csv` : notation des utilisateurs sur les animÃ©s
+Les donnÃ©es sont dÃ©sormais dans le dossier `dataset/`, on compte 6 csv :
 
-Afin de pouvoir travailler et effectuÃ© des changements sur le dÃ©pÃ´t du projet depuis la VM, on ajoute une clÃ© ssh de dÃ©ploiement sur gitlab dans "Settings>Repository>Deploy keys".
+- `anime-dataset-2023.csv`
+- `anime-filtered.csv`
+- `final_animedataset.csv`
+- `user-filtered.csv`
+- `users-details-2023.csv`
+- `users-score-2023.csv`
+
+Les fichiers `*-filtered.csv` et `final_*.csv` permettent d'Ãªtre plus rapidement prÃªts Ã  l'emploi en fonction de l'analyse qu'on compte faire dessus.
+
+On Ã  fait le choix de se limiter aux tables `anime-dataset-2023`, `user-score-2023` et `user-filtered`.
+
+On supprime les autres csv.
+```shell
+cd ~/projet-ipbd24/files/dataset
+rm anime-filtered.csv final_animedataset.csv users-details-2023.csv
+```
+
+Voici une description de nos tables : 
+
+- `anime-dataset-2023.csv`
+	- anime_id: Unique ID for each anime.
+	- Name: The name of the anime in its original language.
+	- English name: The English name of the anime.
+	- Other name: Native name or title of the anime(can be in Japanese, Chinese or Korean).
+	- Score: The score or rating given to the anime.
+	- Genres: The genres of the anime, separated by commas.
+	- Synopsis: A brief description or summary of the anime's plot.
+	- Type: The type of the anime (e.g., TV series, movie, OVA, etc.).
+	- Episodes: The number of episodes in the anime.
+	- Aired: The dates when the anime was aired.
+	- Premiered: The season and year when the anime premiered.
+	- Status: The status of the anime (e.g., Finished Airing, Currently Airing, etc.).
+	- Producers: The production companies or producers of the anime.
+	- Licensors: The licensors of the anime (e.g., streaming platforms).
+	- Studios: The animation studios that worked on the anime.
+	- Source: The source material of the anime (e.g., manga, light novel, original).
+	- Duration: The duration of each episode.
+	- Rating: The age rating of the anime.
+	- Rank: The rank of the anime based on popularity or other criteria.
+	- Popularity: The popularity rank of the anime.
+	- Favorites: The number of times the anime was marked as a favorite by users.
+	- Scored By: The number of users who scored the anime.
+	- Members: The number of members who have added the anime to their list on the platform.
+	- Image URL: The URL of the anime's image or poster.
+	- The dataset offers valuable information for analyzing and comprehending the characteristics, ratings, popularity, and viewership of various anime shows. By utilizing this dataset, one can conduct a wide range of analyses, including identifying the highest-rated anime, exploring the most popular genres, examining the distribution of ratings, and gaining insights into viewer preferences and trends. Additionally, the dataset facilitates the creation of recommendation systems, time series analysis, and clustering to delve deeper into anime trends and user behavior.
+- `users-details-2023.csv`
+	- Mal ID: Unique ID for each user.
+	- Username: The username of the user.
+	- Gender: The gender of the user.
+	- Birthday: The birthday of the user (in ISO format).
+	- Location: The location or country of the user.
+	- Joined: The date when the user joined the platform (in ISO format).
+	- Days Watched: The total number of days the user has spent watching anime.
+	- Mean Score: The average score given by the user to the anime they have watched.
+	- Watching: The number of anime currently being watched by the user.
+	- Completed: The number of anime completed by the user.
+	- On Hold: The number of anime on hold by the user.
+	- Dropped: The number of anime dropped by the user.
+	- Plan to Watch: The number of anime the user plans to watch in the future.
+	- Total Entries: The total number of anime entries in the user's list.
+	- Rewatched: The number of anime rewatched by the user.
+	- Episodes Watched: The total number of episodes watched by the user.
+	- The User Details Dataset provides valuable information for analyzing user behavior and preferences on the anime platform. By examining mean scores and anime genres, you can gain insights into user preferences. Users can be segmented into different groups based on their watching behavior, such as active users and casual viewers. Personalized recommendation systems can be built using users' completed and plan-to-watch lists. Location-based analysis reveals anime popularity and user engagement in various countries. Trends in watching behavior, user retention, and gender-based differences in anime preferences can be identified. Additionally, you can explore rewatching habits and perform time series analysis to understand user engagement patterns over time.
+- `users-score-2023.csv`
+	- user_id: Unique ID for each user.
+	- Username: The username of the user.
+	- anime_id: Unique ID for each anime.
+	- Anime Title: The title of the anime.
+	- rating: The rating given by the user to the anime.
+	- The User Score Dataset enables various analyses and insights into user interactions with anime. By examining user ratings for different anime titles, you can identify highly-rated and popular anime among users. Additionally, you can explore user preferences and watch patterns for specific anime titles. This dataset also forms the foundation for building recommendation systems based on user ratings, helping to suggest anime that align with individual tastes. Furthermore, you can perform collaborative filtering and similarity analysis to discover patterns of similar user interests. Overall, this dataset offers valuable information for understanding user engagement and preferences on the anime platform.
+
+- `user-filtered` : contient uniquement l'id de l'anime, l'id du user qui a mis la note, et la note.
+
+## 2. Nettoyage des donnÃ©es et prÃ©-analyse
+
+### Environnement Python
+
+Pour mettre en place cette partie, nous avons dÃ©cidÃ© d'utiliser la librairie `pandas` sur Python afin d'extraire des donnÃ©es et faire des analyses comme la tendance sur les genres d'animÃ©s les plus visionnÃ©s par exemple. La librairie python `seaborn`  permettra un affichage des donnÃ©es.
+
+Pour ce faire nous avons procÃ©dÃ© Ã  toute la partie mise en place de python sur la VM dans un environnement virtuel :
+```shell
+cd ~
+# CrÃ©ation du v-env
+python3 -m venv mon-venv
+source mon-venv/bin/activate
+# Installation des modules
+pip install --upgrade pip
+python3 -m pip install pandas seaborn
+```
+
+On exÃ©cute ensuite le code.
+```shell
+(mon-venv)$ python3 treat.py
+```
+
+### Nettoyage des donnÃ©es
+
+- Nettoyage et conversion des donnÃ©es :
+
+Les colonnes numÃ©riques du DataFrame df (comme Score, Popularity, Favorites, etc.) qui contiennent des valeurs "UNKNOWN" sont remplacÃ©es par -1.
 
-## 2. Utilisation de Apache Superset
+Ces colonnes sont ensuite converties en types de donnÃ©es appropriÃ©s (float64 pour les scores et int64 pour les autres).
 
-Apache Superset est ..
+SÃ©paration de la colonne "Premiered" :
 
-On lance la version `non-dev` qui prend une image immutable une fois `up`.
+La colonne Premiered est divisÃ©e en deux nouvelles colonnes : Premiere_year et Premiere_season.
+
+Une fonction yr_season est dÃ©finie pour gÃ©rer cette sÃ©paration et assigner "UNKNOWN" lorsque nÃ©cessaire.
+
+- Encodage des genres :
+
+Les genres sont convertis en format one-hot encoding. Chaque genre devient une nouvelle colonne avec des valeurs 0 ou 1 indiquant la prÃ©sence de ce genre dans chaque anime.
+
+Une fonction split_genre est utilisÃ©e pour mettre Ã  jour chaque ligne avec les valeurs one-hot encodÃ©es.
+
+- RafraÃ®chissement et sauvegarde des donnÃ©es :
+
+Le DataFrame est sauvegardÃ© dans un nouveau fichier CSV `anime-dataset-2023-refined.csv`, puis rechargÃ© avec `anime_id` comme index.
+
+- AgrÃ©gation des donnÃ©es par annÃ©e :
+
+Les donnÃ©es sont regroupÃ©es par annÃ©e de premiÃ¨re diffusion (`Premiere_year`), calculant le score moyen (`mean_score`) et le nombre de shows (`show_count`) par annÃ©e.
+
+Une somme totale des genres par annÃ©e est Ã©galement calculÃ©e (`genre_all_sum`).
+
+### PremiÃ¨res visualisations
+
+- Evolution de la proportion des genres par annÃ©e
+
+Ici on va vouloir utiliser la librairie `seaborn` pour pouvoir afficher une "heatmap"
+
+[Proportion des genres par annÃ©es](images/genre_in_years.png)
+
+- Nombre d'utilisateurs par pays
+
+ici la chose Ã  faire n'Ã©tait pas si compliquÃ©e, il fallait diffÃ©rencier 3 cas dans les donnÃ©es de localisation (en splitant le string via le caractÃ¨re de la virgule) : 
+
+On va faire alors une nouvelle colonne "COUNTRY" composÃ©e de : 
+- le string vide [""] -> on remplace par "UNKNOWN"
+- le string composÃ© d'un pays ["France"], -> on vient prendre le premier Ã©lÃ©ment
+- le string composÃ© de la ville ET du pays ["Evry, France"] -> on vient prendre le deuxiÃ¨me (indice -1)
+
+AprÃ¨s ceci on vient faire une requÃªte en groupby sur les country, on compte, puis affichage sous forme de barre.
+
+```python
+sns.barplot(x='User_count', y='Country', data=top_15_countries, palette="viridis", ax=ax)
+```
+
+[Nombre d'utilisateurs par pays](images/users_by_country.png)
+
+## 3. Hadoop et Hive
+
+Pour repartir de 0 (l'option `-v` supprime les volumes) :
+```shell
+# ArrÃªt des docker-compose
+docker compose -f ~/projet-ipbd24/docker-files/hadoop/docker-compose.yml -v down
+docker compose -f ~/superset/docker-compose.yml -v down
+# Suppression de tous les conteneurs
+docker rm -f $(docker ps -a -q)
+# Suppression de tous les volumes restants
+docker volume rm $(docker volume ls -q)
+```
+
+### DÃ©marrage
+
+On lance tout d'abord le cluster Hadoop avec les scripts de dÃ©marrage. Ces scripts sont disponibles dans le dossier `~/projet-ipbd24/docker-files/hadoop/`.
+
+Il s'agit de ceux vus en cours modifiÃ©. Les scripts de dÃ©marrage ont Ã©tÃ© lÃ©gÃ¨rement factorisÃ©s avec l'introduction d'une variable pour dÃ©finir le fichier `docker-compose` a utilisÃ©. De plus, les conteneurs spark ont Ã©tÃ© enlevÃ©s car inutilisÃ© et le nom du cluster est dÃ©sormais `project` et non `test`.
+
+On lance le cluster :
+```shell
+cd ~/projet-ipbd24/docker-files/hadoop/
+./start-hadoop.sh
+```
+
+Dans un souci de lisibilitÃ©, j'ai ajoutÃ© des volumes nommÃ©s afin de pouvoir savoir quel volume est liÃ© Ã  quel conteneur. J'utilise la commande suivante pour dÃ©terminer les volumes montÃ©s de tous les conteneurs qui n'ont pas encore de nom lisible.
+```shell
+docker container inspect $(docker ps -q) | grep -A5 Mounts
+```
+
+Le seul volume Ã  ajouter fut `hadoop_metastore_postgresql`.
+
+La liste des volumes est Ã  prÃ©sent limpide, pour les conteneurs actifs.
+```shell
+docker volume ls
+```
+### Import des donnÃ©es dans HDFS
+
+On se connecte au conteneur `namenode` et on vÃ©rifie que HDFS fonctionne correctement :
+```shell
+docker exec -it namenode bash
+# Le volume contenant les donnÃ©es
+cd /data/hdfs/files/dataset
+# VÃ©rification du bon fonctionnement d'HDFS
+hdfs dfs -df -h 
+```
+
+On crÃ©er ensuite les rÃ©pertoires dans HDFS et on ajoute nos donnÃ©es :
+```shell
+hdfs dfs -mkdir /dataset
+hdfs dfs -put /data/hdfs/files/dataset/*.csv /dataset
+# Pour vÃ©rifier :
+hdfs dfs -ls /dataset
+```
+
+On peut Ã©galement vÃ©rifier via l'interface graphique : http://162.19.124.170:9870/explorer.html#/
+
+Une fois le cluster Hadoop/Hive/Yarn lancÃ© et les donnÃ©es mises sur HDFS, on peut passer sur Hive.
+
+### CrÃ©ation de la database du Hive
+
+On se connecte au docker du serveur Hive aprÃ¨s Ãªtre revenu sur la VM (quitter le docker avec C-D).
+```shell
+docker exec -it hive-server bash
+```
+
+On initialise ensuite la database `myanimelist_db` ainsi que ses tables. Toutes les commandes sql nÃ©cessaires sont dans le fichier `files/scripts/init_db.sql` du dÃ©pÃ´t. Il suffit d'exÃ©cuter ce fichier sur Hive, il se trouve dans le volume du docker `/data/hive/files/`.
+```shell
+/opt/hive/bin/beeline -u jdbc:hive2://hive-server:10000 -f /data/hive/files/scripts/init_db.sql
+```
+
+Un extrait de ce fichier SQL :
+```sql
+CREATE DATABASE IF NOT EXISTS myanimelist_db;
+
+USE myanimelist_db;
+
+
+CREATE EXTERNAL TABLE IF NOT EXISTS score (
+    user_id INT,
+    anime_id INT,
+    rating INT
+)
+ROW FORMAT DELIMITED
+FIELDS TERMINATED BY ','
+LINES TERMINATED BY '\n'
+STORED AS TEXTFILE
+LOCATION '/dataset/';
+
+[...]
+```
+
+Si aucune erreur de survient, tout va bien. On peut tout de mÃªme se connecter notre database sur Hive et vÃ©rifier que les tables sont correctes :
+```shell
+/opt/hive/bin/beeline -u jdbc:hive2://hive-server:10000/myanimelist_db
+SHOW TABLES;
+SELECT * FROM anime LIMIT 3;
+SELECT * FROM users LIMIT 10;
+SELECT * FROM score LIMIT 10;
+```
+
+On voit plusieurs problÃ¨me :
+- le header de chaque fichier csv a Ã©tÃ© importÃ©.
+- les groupement crÃ©Ã© par les apostrophes ne sont pas prises en compte, en plus de cela ces groupements peuvent comprendre des retours Ã  la ligne.
+- au delÃ  du problÃ¨me des guillemets, il y a beaucoup trop de valeurs `NULL`.
+
+Pour le problÃ¨me de guillemet et de header on remplace :
+```sql
+ROW FORMAT DELIMITED
+FIELDS TERMINATED BY ','
+LINES TERMINATED BY '\n'
+STORED AS TEXTFILE
+LOCATION '/dataset/score'
+```
+
+Par :
+```sql
+ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
+WITH SERDEPROPERTIES (
+    "separatorChar" = ',',
+    "quoteChar"     = '\"',
+	"escapeChar" = "\\"
+)
+STORED AS TEXTFILE
+LOCATION '/dataset/score'
+TBLPROPERTIES ("skip.header.line.count"="1");
+```
+
+L'ancien fichier `files/scripts/init_db.sql` s'appelle dÃ©sormais `wrong_init_db.sql` pour voir les diffÃ©rences.
+
+Pour rÃ©gler la trop grande prÃ©sence de valeurs nulles, on crÃ©er un rÃ©pertoire par dossier csv. Actuellement, toutes les tables ont la mÃªme `LOCATION` ce qui peut pose problÃ¨me.
+
+Pour pouvoir traiter les retours Ã  la lignes dans le csv, on Ã©crit un Ã©crit un script python `files/scripts/replace_newlines.py` qui remplace les retours Ã  la ligne dans les colonnes du csv par `\\n` afin que Hive puisse l'importer. On fournit les csv Ã  traiter en ligne de commande, le script utilise les libraires `pandas`, `os` et `sys`.
+```shell
+source ~/mon-venv/bin/activate
+cd ~/projet-ipbd24/files/
+./scripts/replace_newlines.py dataset/*.csv
+	deactivate
+```
+
+Les fichiers traitÃ© on pour nomenclature `*_modified.csv`.
+
+On recommence l'importation de 0 avec les csv modifiÃ©s :
+```shell
+docker exec -it namenode bash
+# Suppression
+hdfs dfs -rm -r -f /dataset/*
+# CrÃ©ation des dossiers
+hdfs dfs -mkdir /dataset/{anime,users,score}
+# Importation des donnÃ©es sur HDFS
+hdfs dfs -put /data/hdfs/files/dataset/anime-dataset-2023_modified.csv /dataset/anime/anime-dataset-2023.csv
+hdfs dfs -put /data/hdfs/files/dataset/users-score-2023_modified.csv /dataset/users/users-score-2023.csv
+hdfs dfs -put /data/hdfs/files/dataset/user-filtered_modified.csv /dataset/score/user-filtered.csv
+# Pour vÃ©rifier :
+hdfs dfs -ls /dataset/*
+# <C-D> quitter le conteneur
+```
+
+On supprime les tables, et on importe Ã  nouveau dans Hive :
+```shell
+docker exec -it hive-server bash
+/opt/hive/bin/beeline -u jdbc:hive2://hive-server:10000/myanimelist_db
+DROP TABLE anime;
+DROP TABLE users;
+DROP TABLE score;
+# <C-C> quitter Hive, pas le conteneur
+```
+
+On importe Ã  nouveau, en Ã©tant dans le conteneur `hive-server` :
+```shell
+/opt/hive/bin/beeline -u jdbc:hive2://hive-server:10000 -f /data/hive/files/scripts/init_db.sql
+```
+
+Et on vÃ©rifie Ã  nouveau :
+```shell
+/opt/hive/bin/beeline -u jdbc:hive2://hive-server:10000/myanimelist_db
+SHOW TABLES;
+SELECT * FROM anime LIMIT 3;
+SELECT * FROM users LIMIT 5;
+SELECT * FROM score LIMIT 5;
+```
+
+Finalement, aprÃ¨s toutes ces manipulations en allÃ© retour pour vÃ©rifier quelle modifiction fonctionne, on a nos donnÃ©es proprement importÃ© dans Hive ! Plus qu'Ã  faire de belle visualisation dans Superset
+
+### RÃ©solution du problÃ¨me de connexion Ã  Hive
+
+FrÃ©quemment la connexion Ã  Hive ne fonctionne plus, la seconde commande retournant une erreur :
+```shell
+docker exec -it hive-server bash
+/opt/hive/bin/beeline -u jdbc:hive2://hive-server:10000
+```
+
+L'erreur retournÃ©e tÃ©moigne que la database par dÃ©faut `default` n'existe pas, ce qui rend la connexion impossible.
+```shell
+$ docker logs hive-server
+FAILED: SemanticException [Error 10072]: Database does not exist: default
+```
+
+Pour rÃ©soudre ce problÃ¨me, on arrÃªte les deux containers du metastore et on les relance :
+```shell
+docker compose down hive-metastore
+docker compose down hive-metastore-postgresql
+cd ~/projet-ipbd24/docker-files/hadoop/
+./start-hadoop.sh
+```
+
+## 4. Utilisation d'Apache Superset
+
+Apache Superset est une plateforme de visualisation et d'exploration de donnÃ©es moderne. Elle inclut entre autres une interface no-code mais supporte Ã©galement des requÃªtes SQL pour des requÃªtes avancÃ©es.
 
 ```shell
 git clone --depth=1  https://github.com/apache/superset.git
 cd superset
+```
+
+L'entiÃ¨retÃ© de cette partie, git clone compris mais hors crÃ©ation de Dashboard, peut Ãªtre faite en lanÃ§ant simplement le script suivant :
+```shell
+./files/superset/docker-compose-superset-git.sh
+```
+
+Pour vivre toutes pÃ©ripÃ©ties et problÃ¨mes rencontrÃ©s, continuer avec la partie qui suit.
+
+### Premier essai : version dev
+
+On a effectuÃ© un premier lancement avec la version de dÃ©veloppement, qui est supposÃ© se mettre Ã  jour lors de changement de donnÃ©es locales. Cependant l'interface en ligne ne fonctionnait (http://162.19.124.170:8088/, identifiants : `admin`, `admin`).
+
+[UI Web de la version dev en erreur](images/dev-version-erreur-connexion.png)
+
+La commande nÃ©anmoins :
+```shell
+docker compose up -f docker-compose.yml -d
+```
+
+Quelque chose Ã©tait possiblement mal configurÃ©, je n'ai pas spÃ©cialement cherchÃ© plus loin et j'ai installÃ© la version `non-dev`. Il fallait d'abord dÃ©sinstaller la version `dev`, ce qui a posÃ© quelques problÃ¨mes car le network `superset_default` Ã©tait encore up et ne voulait pas Ãªtre arrÃªtÃ©. Je pense que cela Ã©tait dÃ» Ã  un arrÃªt du lancement mal gÃ©rÃ© lors d'un Ctrl-D.
+
+J'ai donc inspectÃ© ce rÃ©seau, ce dernier avait encore un `endpoint` actif ce qui l'empÃªchait d'Ãªtre arrÃªtÃ©. AprÃ¨s dÃ©connexion de l'endpoint, c'Ã©tait bon.
+```shell
+docker network inspect superset_default
+docker network disconnect -f superset_default superset_init
+docker compose down
+```
+
+### DeuxiÃ¨me essai : version non-dev
+
+La version dev ne fonctionnant pas, nous avons lancÃ© la version non-dev qui nous conviendrait tout autant.
+
+La version `non-dev` prenant une image immutable une fois `up`, c'est-Ã -dire que toute modification des fichiers de configuration locaux ne sont pas visibles sans un redÃ©marrage.
+```shell
+docker compose -f docker-compose-non-dev.yml up -d
+```
+
+On se connecte ensuite sur l'interface en ligne http://162.19.124.170:8088/ avec les identifiants par dÃ©faut `admin`, `admin`.
+
+Tout fonctionne.
+
+[UI Web non-dev fonctionnel](images/non-dev-version-interface.png)
+
+### Connexion Ã  Hive
+
+On souhaite dÃ©sormais accÃ©der aux donnÃ©es gÃ©rÃ©es par Hive.
+
+La premiÃ¨re Ã©tape est d'installer les drivers nÃ©cessaires pour Hive sur le conteneur de Superset. On doit l'ajouter dans la configuration et recrÃ©er l'image docker.
+```shell
+cd ~/superset
+touch ./docker/requirements-local.txt
+echo "pyhive" >> ./docker/requirements-local.txt
 docker compose -f docker-compose-non-dev.yml up -d
 ```
 
-On s'y connecte Ã  l'adresse http://162.19.124.170:8088/ avec les identifiants
-par dÃ©faut `admin`, `admin`.
+ DeuxiÃ¨mement, sur l'interface web (http://162.19.124.170:8088/, admin, admin) on va dans "Settings > Database Connections > + Database > SUPPORTED DATABASES" et on sÃ©lectionne Apache Hive. On ajoute ici l'URI SQLAlchemy de Hive :
+```
+hive://hive@162.19.124.170:10000/myanimelist_db
+```
+
+On teste la connexion Ã  la db en cliquant sur le bouton `TEST CONNECTION`. La connexion est bonne.
+
+On clique ensuite sur "Connect", la db est crÃ©Ã©e sur Superset bien qu'une erreur s'affiche.
+
+### CrÃ©ation de Dashboards
+
+## 5. Pour aller plus loin
+
+Superset est actuellement toujours configurÃ© en mode dÃ©veloppement. Mettre en place un environnement de production digne de ce nom selon les indications de la documentation nÃ©cessite un certain nombre de changement.
+
+https://superset.apache.org/docs/configuration/configuring-superset/#setting-up-a-production-metadata-database
+https://superset.apache.org/docs/installation/docker-compose
+https://minikube.sigs.k8s.io/docs/start/
+minikube : kubernetes pour une seul host (VM).
+
+
+## TL;DR
+
+Les commandes pour tout mettre en place, en dehors de ce qui concerne l'interface Superset et la crÃ©ation des dashboard (via l'UI).
+
+```shell
+```
+