diff --git a/rapport-karnas.md b/rapport-karnas.md new file mode 100644 index 0000000000000000000000000000000000000000..272c26c74336092f0834b018fd78eaac0d3a5844 --- /dev/null +++ b/rapport-karnas.md @@ -0,0 +1,70 @@ +--- +title: "Rapport du Projet d'IPBD" +author: + - Alexandre FORT + - Tessa DEPAOLI + - Xavier DE WEERD +lang: fr +geometry: "top=2cm, bottom=2cm, left=2cm, right=2cm" +fontsize: 12pt +linkcolor: "blue" +toc: true +toc-depth: 3 +titlepage: true +papersize: "a4paper" +--- +# Analyse des tendances sur les animés + +## Objectif et mise en place + +### Description des données et objectif + +Le dataset que nous avons choisi est le suivant : https://www.kaggle.com/datasets/dbdmobile/myanimelist-dataset/. + +Il s'agit de données sur les animés, les profils d'utilisateurs et les notations des utilisateurs de la plateforme [MyAnimeList](https://myanimelist.net/). + +Notre but est d'analyser ces données afin de trouver des tendances ou/et corrélation dans les données. + +Pour cela, on utilisera les outils présentés pendant les différents ateliers en cherchant à en exposer de nouveaux usages : +- Docker +- Hive +- Spark +- OpenSearch +- OpenSearch Dashboards + +### Mise en place + +On récupère le git du projet, contenant les scripts pour lancer le cluster Hive, Hadoop et OpenSearch : +```sh +cd ~ +git clone https://git.iiens.net/de-weerd2022/projet-ipbd24.git +``` + +On télécharge l'archive des données avec une requête wget puis on l'extrait (script `download_dataset.sh`) : +```shell +cd ~/projet-ipbd24 +./download_dataset.sh +``` + +[A CORRIGER] +Les données sont désormais dans le dossier `dataset/`, on utilisera les csv d'origine : +- `anime-dataset-2023.csv` : informations sur les animés +- `users-details-2023.csv` : informations sur les utilisateurs +- `users-score-2023.csv` : notation des utilisateurs sur les animés + +Afin de pouvoir travailler et effectué des changements sur le dépôt du projet depuis la VM, on ajoute une clé ssh de déploiement sur gitlab dans "Settings>Repository>Deploy keys". + +## 2. Utilisation de Apache Superset + +Apache Superset est .. + +On lance la version `non-dev` qui prend une image immutable une fois `up`. + +```shell +git clone --depth=1 https://github.com/apache/superset.git +cd superset +docker compose -f docker-compose-non-dev.yml up -d +``` + +On s'y connecte à l'adresse http://162.19.124.170:8088/ avec les identifiants +par défaut `admin`, `admin`.