Please use this identifier to cite or link to this item: https://dspace.univ-ouargla.dz/jspui/handle/123456789/9734
Title: Qualité des données dans un Data warehouse
Authors: BADREDDINE, BELGHOUL
Keywords: Entrepôt de données
qualité des données
algorithme de déduplication des données
Talend
Datawarehouse
Data quality
data deduplication
Talend
مستودع البيانات
جودة البيانات
حذف البيانات المتكررة
Talend )تالند(
Issue Date: 30-Nov-2015
Series/Report no.: 2015;
Abstract: Un Entrepôt de données est utilisé pour la prise de décisions dans l'entreprise par le biais de statistiques et de rapports réalisés via des outils de reporting. Son but est de fournir un ensemble de données servant à stocker d'énormes quantités de données, et qui sont mémorisées à partir de différentes sources. Pour cette raison, le problème de la non-qualité des données est posé. Il y aura un déduplication des données, Des données incomplètes, ou des valeurs nulles, ou des données ne sont pas efficaces …etc. Notre travail consiste à la suppression des données dupliquées. C’est une étape très importante dans le processus d'intégration de données hétérogènes. Nous allons intégrer l'Algorithme de déduplication des données similaires dans l'application "Talend Open Studio", qui est un produit d'intégration de données open source conçu pour combiner, convertir et mettre à jour des données dans divers endroits à travers une entreprise. Grâce à ce travail, nous allons pouvoir trouver une solution au problème de la duplication des données.A data warehouse for decision-making in the company through statistics and reports made through reporting tools, its purpose is to provide a set of data providing a single reference, For storing the data, For its ability to absorb and store huge amounts of data, And which are stored from different sources, For this reason, be non-quality data, there will be a data deduplication, Incomplete data, Or null values, Or data are not effective…. Our work for the process of removing duplicate data, And that is a very important step in the process of integration of heterogeneous data. We will integrate deduplication algorithm similar data in the application "Talend Open Studio", which is an open source integration product designed to combine data, convert and update data in various locations across an enterprise. with this process, we can solve the problem of data duplication.تستعمل مستودع البيانات في اتخاذ القرارات في الشركة، من خلال الإحصائيات والتقارير التي تتم من خلال أدوات إعداد التقارير، والغرض منو ىو توفير مجموعة من البيانات وتوفير مرجعية واحدة، لتخزين بياناتها، لقدرتو على استيعاب وتخزين كميات ىائلة من البيانات، والتي يتم تخزينها من مصادر مختلفة، لهذا السبب، تكون لا جودة للبيانات، وسوف يكون ىناك بيانات مكررة، اوغير مكتملة، أو الخالية، أو ناقصة، أو بيانات عير فعالة … الخ سنعمل على إزالة البيانات المكررة، وىي خطوة ىامة جدا في عملية تكامل البيانات غير المتجانسة. سنقوم بدمج خوارزمية إلغاء بيانات المتماثلة المكررة في تطبيق " Talend Open Studio "، وىو منتج يعمل على تكامل البيانات وىو مفتوح المصدر يهدف إلى جمع وتحويل وتحديث البيانات في مواقع مختلفة في المؤسسات )شركات(. مع ىذه العملية، يمكننا حل مشكلة البيانات المتكررة
Description: UNIVERSITE KASDI MERBAH OUARGLA Faculté des Nouvelles Technologies de l’Information et de la Communication Département d'Informatique et Technologie de l'information
URI: http://dspace.univ-ouargla.dz/jspui/handle/123456789/9734
ISSN: Bou
Appears in Collections:Département d'informatique et technologie de l'information - Master

Files in This Item:
File Description SizeFormat 
BELGHOUL.pdf3,94 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.