Skip to content
Extraits de code Groupes Projets
Valider a88d768d rédigé par Karnas's avatar Karnas
Parcourir les fichiers

added version 0 of report

parent f42da735
Aucune branche associée trouvée
Aucune étiquette associée trouvée
Aucune requête de fusion associée trouvée
---
title: "Rapport du Projet d'IPBD"
author:
- Alexandre FORT
- Tessa DEPAOLI
- Xavier DE WEERD
lang: fr
geometry: "top=2cm, bottom=2cm, left=2cm, right=2cm"
fontsize: 12pt
linkcolor: "blue"
toc: true
toc-depth: 3
titlepage: true
papersize: "a4paper"
---
# Analyse des tendances sur les animés
## Objectif et mise en place
### Description des données et objectif
Le dataset que nous avons choisi est le suivant : https://www.kaggle.com/datasets/dbdmobile/myanimelist-dataset/.
Il s'agit de données sur les animés, les profils d'utilisateurs et les notations des utilisateurs de la plateforme [MyAnimeList](https://myanimelist.net/).
Notre but est d'analyser ces données afin de trouver des tendances ou/et corrélation dans les données.
Pour cela, on utilisera les outils présentés pendant les différents ateliers en cherchant à en exposer de nouveaux usages :
- Docker
- Hive
- Spark
- OpenSearch
- OpenSearch Dashboards
### Mise en place
On récupère le git du projet, contenant les scripts pour lancer le cluster Hive, Hadoop et OpenSearch :
```sh
cd ~
git clone https://git.iiens.net/de-weerd2022/projet-ipbd24.git
```
On télécharge l'archive des données avec une requête wget puis on l'extrait (script `download_dataset.sh`) :
```shell
cd ~/projet-ipbd24
./download_dataset.sh
```
[A CORRIGER]
Les données sont désormais dans le dossier `dataset/`, on utilisera les csv d'origine :
- `anime-dataset-2023.csv` : informations sur les animés
- `users-details-2023.csv` : informations sur les utilisateurs
- `users-score-2023.csv` : notation des utilisateurs sur les animés
Afin de pouvoir travailler et effectué des changements sur le dépôt du projet depuis la VM, on ajoute une clé ssh de déploiement sur gitlab dans "Settings>Repository>Deploy keys".
## 2. Utilisation de Apache Superset
Apache Superset est ..
On lance la version `non-dev` qui prend une image immutable une fois `up`.
```shell
git clone --depth=1 https://github.com/apache/superset.git
cd superset
docker compose -f docker-compose-non-dev.yml up -d
```
On s'y connecte à l'adresse http://162.19.124.170:8088/ avec les identifiants
par défaut `admin`, `admin`.
0% Chargement en cours ou .
You are about to add 0 people to the discussion. Proceed with caution.
Terminez d'abord l'édition de ce message.
Veuillez vous inscrire ou vous pour commenter