Skip to content
GitLab
Explorer
Connexion
Navigation principale
Rechercher ou aller à…
Projet
P
PGPU2023
Gestion
Activité
Membres
Labels
Programmation
Tickets
Tableaux des tickets
Jalons
Wiki
Wiki externe
Code
Requêtes de fusion
Dépôt
Branches
Validations
Étiquettes
Graphe du dépôt
Comparer les révisions
Extraits de code
Compilation
Pipelines
Jobs
Planifications de pipeline
Artéfacts
Déploiement
Releases
Registre de paquets
Registre de conteneur
Registre de modèles
Opération
Environnements
Modules Terraform
Surveillance
Incidents
Analyse
Données d'analyse des chaînes de valeur
Analyse des contributeurs
Données d'analyse CI/CD
Données d'analyse du dépôt
Expériences du modèle
Aide
Aide
Support
Documentation de GitLab
Comparer les forfaits GitLab
Forum de la communauté
Contribuer à GitLab
Donner votre avis
Raccourcis clavier
?
Extraits de code
Groupes
Projets
Afficher davantage de fils d'Ariane
Nicolas MARIE
PGPU2023
Validations
4d6479bd
Valider
4d6479bd
rédigé
1 year ago
par
enzo.decarvalhobittencourt
Parcourir les fichiers
Options
Téléchargements
Correctifs
Plain Diff
reduced memory transfer with an atomic add
parent
5272811e
Aucune branche associée trouvée
Aucune étiquette associée trouvée
Aucune requête de fusion associée trouvée
Modifications
1
Masquer les modifications d'espaces
En ligne
Côte à côte
Affichage de
1 fichier modifié
Projet/CODE/apm/src/apm_gpu.cu
+48
-16
48 ajouts, 16 suppressions
Projet/CODE/apm/src/apm_gpu.cu
avec
48 ajouts
et
16 suppressions
Projet/CODE/apm/src/apm_gpu.cu
+
48
−
16
Voir le fichier @
4d6479bd
...
@@ -12,7 +12,11 @@
...
@@ -12,7 +12,11 @@
#define APM_DEBUG 0
#define APM_DEBUG 0
#define NUMBER_THREADS_BY_BLOCK 1024
#define NUMBER_THREADS_BY_BLOCK 1024
#define MAX_BUFFER_SIZE 1024000 //102.4M file at most
#define MAX_BUFFER_SIZE 102400000 //102.4M file at most
//MAX_BUFFER_SIZE should be dividable by NUMBER_THREADS_BY_BLOCK (for better
// memory management).
//the amount of RAM used by the programm is approx~ 30*MAX_BUFFER_SIZE.
//If you get out of memory errors, you should reduce this value
char
*
read_input_file
(
char
*
filename
,
int
*
size
)
char
*
read_input_file
(
char
*
filename
,
int
*
size
)
{
{
...
@@ -144,7 +148,7 @@ int levenshtein(char *s1, char *s2, int len, int * column, int approx_factor)
...
@@ -144,7 +148,7 @@ int levenshtein(char *s1, char *s2, int len, int * column, int approx_factor)
}
}
__global__
void
levenshtein_cu
(
char
*
find
,
char
*
buf
,
int
len
,
int
n_bytes
__global__
void
levenshtein_cu
(
char
*
find
,
char
*
buf
,
int
len
,
int
n_bytes
,
int
approx_factor
,
int
*
g_column
,
char
*
result
_vec
)
,
int
approx_factor
,
int
*
g_column
,
int
*
result
)
{
{
int
tId
=
blockIdx
.
x
*
blockDim
.
x
+
threadIdx
.
x
;
//global thread id
int
tId
=
blockIdx
.
x
*
blockDim
.
x
+
threadIdx
.
x
;
//global thread id
if
(
tId
>
n_bytes
)
if
(
tId
>
n_bytes
)
...
@@ -175,9 +179,13 @@ __global__ void levenshtein_cu(char *find, char *buf, int len, int n_bytes
...
@@ -175,9 +179,13 @@ __global__ void levenshtein_cu(char *find, char *buf, int len, int n_bytes
lastdiag
=
olddiag
;
lastdiag
=
olddiag
;
}
}
}
}
int
res
=
0
;
if
(
column
[
len
]
<=
approx_factor
)
if
(
column
[
len
]
<=
approx_factor
)
{
result_vec
[
tId
]
=
1
;}
//its a match
res
=
1
;
//{result_vec[tId] = 1;}//its a match
atomicAdd
(
result
,
res
);
}
}
int
main
(
int
argc
,
char
**
argv
)
int
main
(
int
argc
,
char
**
argv
)
...
@@ -306,7 +314,17 @@ int main(int argc, char ** argv)
...
@@ -306,7 +314,17 @@ int main(int argc, char ** argv)
,
cudaGetErrorString
(
cu_err
));
,
cudaGetErrorString
(
cu_err
));
return
1
;
return
1
;
}
}
int
result
=
0
;
int
*
result_dev
;
cudaMalloc
((
void
**
)
&
result_dev
,
sizeof
(
int
));
if
((
cu_err
=
cudaGetLastError
())
!=
cudaSuccess
)
{
fprintf
(
stderr
,
"Unable to allocate result on device: %s.
\n
"
,
cudaGetErrorString
(
cu_err
));
return
1
;
}
off_t
offset
=
0
;
off_t
offset
=
0
;
while
(
offset
<
filesize
)
while
(
offset
<
filesize
)
...
@@ -367,7 +385,8 @@ int main(int argc, char ** argv)
...
@@ -367,7 +385,8 @@ int main(int argc, char ** argv)
fprintf
(
stderr
,
"Unable to allocate result vec on host."
);
fprintf
(
stderr
,
"Unable to allocate result vec on host."
);
return
1
;
return
1
;
}
}
/*
cudaMemset(result_vec_dev, 0, NTBB*NB*sizeof(char));
cudaMemset(result_vec_dev, 0, NTBB*NB*sizeof(char));
if ((cu_err = cudaGetLastError()) != cudaSuccess)
if ((cu_err = cudaGetLastError()) != cudaSuccess)
{
{
...
@@ -375,10 +394,18 @@ int main(int argc, char ** argv)
...
@@ -375,10 +394,18 @@ int main(int argc, char ** argv)
, cudaGetErrorString(cu_err));
, cudaGetErrorString(cu_err));
return 1;
return 1;
}
}
cudaMemset(result_dev, 0, sizeof(int));
if ((cu_err = cudaGetLastError()) != cudaSuccess)
{
fprintf(stderr, "Unable to init result to 0 on device: %s.\n"
, cudaGetErrorString(cu_err));
return 1;
}
*/
levenshtein_cu
<<<
NB
,
NTBB
>>>
(
pattern_dev
,
buf_dev
,
size_pattern
levenshtein_cu
<<<
NB
,
NTBB
>>>
(
pattern_dev
,
buf_dev
,
size_pattern
,
n_bytes
,
approx_factor
,
column_dev
,
result_
vec_
dev
);
,
n_bytes
,
approx_factor
,
column_dev
,
result_dev
);
if
((
cu_err
=
cudaGetLastError
())
!=
cudaSuccess
)
if
((
cu_err
=
cudaGetLastError
())
!=
cudaSuccess
)
{
{
fprintf
(
stderr
,
"Kernel execution of levenshtein_cu failed: %s.
\n
"
fprintf
(
stderr
,
"Kernel execution of levenshtein_cu failed: %s.
\n
"
...
@@ -387,19 +414,21 @@ int main(int argc, char ** argv)
...
@@ -387,19 +414,21 @@ int main(int argc, char ** argv)
}
}
//get result
//get result
cudaMemcpy
(
result
_vec
,
result_
vec_
dev
cudaMemcpy
(
&
result
,
result_dev
,
NTBB
*
NB
*
sizeof
(
char
),
cudaMemcpyDeviceToHost
);
,
sizeof
(
int
),
cudaMemcpyDeviceToHost
);
if
((
cu_err
=
cudaGetLastError
())
!=
cudaSuccess
)
if
((
cu_err
=
cudaGetLastError
())
!=
cudaSuccess
)
{
{
fprintf
(
stderr
,
"Unable to retrieve result
vector
on host: %s.
\n
"
fprintf
(
stderr
,
"Unable to retrieve result on host: %s.
\n
"
,
cudaGetErrorString
(
cu_err
));
,
cudaGetErrorString
(
cu_err
));
return
1
;
return
1
;
}
}
//TODO MAYBE - reduction on gpu.
n_matches
[
i
]
+=
result
;
/*
for (int j = 0 ; j<n_bytes ; j++)
for (int j = 0 ; j<n_bytes ; j++)
{
{
/
*
Highly advanced debbugging (printfs)
/
/
Highly advanced debbugging (printfs)
int column[size_pattern+1];
int column[size_pattern+1];
int d =
int d =
levenshtein(pattern[i], buf+j, size_pattern, column
levenshtein(pattern[i], buf+j, size_pattern, column
...
@@ -411,9 +440,10 @@ int main(int argc, char ** argv)
...
@@ -411,9 +440,10 @@ int main(int argc, char ** argv)
,pattern[i], j);
,pattern[i], j);
printf("%.*s\n",size_pattern,&buf[j]);
printf("%.*s\n",size_pattern,&buf[j]);
}
}
*/
n_matches[i] += result_vec[j];
n_matches[i] += result_vec[j];
}
}
*/
offset
+=
(
MAX_BUFFER_SIZE
-
size_pattern
+
1
);
offset
+=
(
MAX_BUFFER_SIZE
-
size_pattern
+
1
);
...
@@ -433,7 +463,8 @@ int main(int argc, char ** argv)
...
@@ -433,7 +463,8 @@ int main(int argc, char ** argv)
,
cudaGetErrorString
(
cu_err
));
,
cudaGetErrorString
(
cu_err
));
return
1
;
return
1
;
}
}
/*
cudaFree(result_vec_dev);
cudaFree(result_vec_dev);
if ((cu_err = cudaGetLastError()) != cudaSuccess)
if ((cu_err = cudaGetLastError()) != cudaSuccess)
{
{
...
@@ -443,6 +474,7 @@ int main(int argc, char ** argv)
...
@@ -443,6 +474,7 @@ int main(int argc, char ** argv)
}
}
free(result_vec);
free(result_vec);
*/
}
}
//free memory - and then get onto the next pattern.
//free memory - and then get onto the next pattern.
...
...
Ce diff est replié.
Cliquez pour l'agrandir.
Aperçu
0%
Chargement en cours
Veuillez réessayer
ou
joindre un nouveau fichier
.
Annuler
You are about to add
0
people
to the discussion. Proceed with caution.
Terminez d'abord l'édition de ce message.
Enregistrer le commentaire
Annuler
Veuillez vous
inscrire
ou vous
se connecter
pour commenter