Le dataset que nous avons choisi est le suivant : https://www.kaggle.com/datasets/dbdmobile/myanimelist-dataset/.
Il s'agit de données sur les animés, les profils d'utilisateurs et les notations des utilisateurs de la plateforme [MyAnimeList](https://myanimelist.net/).
Notre but est d'analyser ces données afin de trouver des tendances ou/et corrélation dans les données.
Pour cela, on utilisera les outils présentés pendant les différents ateliers en cherchant à en exposer de nouveaux usages :
- Docker
- Hive
- Spark
- OpenSearch
- OpenSearch Dashboards
### Mise en place
On récupère le git du projet, contenant les scripts pour lancer le cluster Hive, Hadoop et OpenSearch :
On télécharge l'archive des données avec une requête wget puis on l'extrait (script `download_dataset.sh`) :
```shell
cd ~/projet-ipbd24
./download_dataset.sh
```
[A CORRIGER]
Les données sont désormais dans le dossier `dataset/`, on utilisera les csv d'origine :
-`anime-dataset-2023.csv` : informations sur les animés
-`users-details-2023.csv` : informations sur les utilisateurs
-`users-score-2023.csv` : notation des utilisateurs sur les animés
Afin de pouvoir travailler et effectué des changements sur le dépôt du projet depuis la VM, on ajoute une clé ssh de déploiement sur gitlab dans "Settings>Repository>Deploy keys".
## 2. Utilisation de Apache Superset
Apache Superset est ..
On lance la version `non-dev` qui prend une image immutable une fois `up`.