Description du livre
Cet ouvrage donne un aperçu des méthodes prédictives démontrées par la modélisation de logiciels libres avec Rattle (R') et WEKA. La gestion des connaissances implique l'application des connaissances humaines (épistémologie) avec les avancées technologiques de notre société actuelle (systèmes informatiques) et les grandes données, tant au niveau de la collecte des données que de leur analyse. Nous voyons trois types d'outils analytiques. Les analyses descriptives se concentrent sur les rapports de ce qui s'est passé. L'analyse prédictive étend l'intelligence statistique et/ou artificielle pour fournir une capacité de prévision. Il comprend également la modélisation de la classification. L'analyse prescriptive applique des modèles quantitatifs pour optimiser les systèmes, ou du moins pour identifier les systèmes améliorés. l'exploration de données inclut la modélisation descriptive et prédictive. la recherche opérationnelle inclut les trois. Cet ouvrage se concentre sur l'analyse prescriptive.
Le livre cherche à fournir des explications simples et des démonstrations de certains outils descriptifs. Cette deuxième édition fournit d'autres exemples d'impact important des données, met à jour le contenu de la visualisation, clarifie certains points et élargit la couverture des règles d'association et de l'analyse des clusters. Le chapitre 1 donne un aperçu général dans le contexte de la gestion des connaissances. Le chapitre 2 traite de certains types de données de base. Le chapitre 3 porte sur les outils de modélisation des séries chronologiques fondamentales et le chapitre 4 présente une démonstration de la modélisation par régression multiple. Le chapitre 5 présente la modélisation de l'arbre de régression, tandis que le chapitre 6 présente les modèles autorégressifs/intégrés/moyens mobiles, ainsi que les modèles GARCH. Le chapitre 7 couvre l'ensemble des outils d'exploration de données utilisés dans la classification, y compris les variantes spéciales qui supportent les machines vectorielles, les forêts aléatoires et le boosting.
Les modèles sont démontrés à l'aide de données commerciales. Le style du livre se veut descriptif, cherchant à expliquer comment fonctionnent les méthodes, avec quelques citations, mais sans référence scientifique approfondie. Les ensembles de données et les logiciels sont tous choisis de manière à ce qu'ils soient largement disponibles et accessibles à tout lecteur disposant de liens informatiques.