Outils de Text Mining pour Big Data

Voici un aperçu de quelques-uns des joueurs dans le grand marché de données d'analyse de texte. Certains sont petits tandis que d'autres sont des noms familiers. Certains appellent ce qu'ils font grandes analyse de texte de données

Sommaire

, tandis que certains juste réfèrent à lui comme l'analyse de texte.

Attensity pour Big Data

Attensity est l'une des sociétés d'origine de texte d'analyse qui a commencé le développement et la vente de produits il ya plus de dix ans. A cette époque, il a plus de 150 clients d'entreprise et l'un des plus grands groupes de développement de la PNL dans le monde. Attensity offre plusieurs moteurs pour l'analyse de texte. Ceux-ci comprennent Auto-Classification, Extraction d'entités, et extraction exhaustive. Extraction exhaustive est la technologie phare de Attensity qui extrait automatiquement les faits à partir du texte analysé et organise cette information.

La société se concentre sur l'analyse sociale et multicanaux et l'engagement en analysant le texte pour rendre compte à partir de sources internes et externes, puis l'acheminer vers les utilisateurs d'affaires pour l'engagement. Il a récemment acheté Biz360, une société de médias sociaux qui agrège énormes flux de médias sociaux. Il a développé un système de calcul de grille qui fournit des capacités de haute performance pour le traitement d'énormes quantités de texte en temps réel.

Attensity utilise un framework Hadoop pour stocker des données. Il dispose également d'un système de données de files d'attente qui crée un processus d'orchestration qui reconnaît pics de données entrants et ajuste le traitement sur plus / moins de serveurs que nécessaire.

Clarabridge pour Big Data

Un autre pur-play analyse de texte fournisseur, Clarabridge est en fait un spin-off d'un business intelligence (BI) cabinet de conseil (appelé Claraview) qui a réalisé la nécessité de traiter avec des données non structurées. Son but est d'aider les entreprises à générer de la valeur commerciale mesurable en regardant le client de manière holistique, repérer les expériences et les questions clés, et d'aider tout le monde dans une organisation prendre des mesures et de collaborer en temps réel.

Cela comprend la détermination en temps réel du sentiment et de la classification des commentaires des clients données / texte et mise en scène le verbatim pour un traitement ultérieur dans le système Clarabridge.

A cette époque, Clarabridge propose à ses clients des fonctionnalités sophistiquées et intéressantes, y compris un simple clic analyse de cause racine pour identifier ce qui cause un changement dans le volume de texte alimente, le sentiment, ou la satisfaction associée à des questions émergentes. Il offre également sa solution comme un Software as a Service (SaaS).

IBM pour Big Data

Géant du logiciel IBM propose plusieurs solutions dans l'espace d'analyse de texte sous sa stratégie du parapluie planète plus intelligente. Mis à part Watson et IBM SPSS, IBM propose également IBM Content Analytics avec Enterprise Search. IBM Content Analytics a été développé sur la base de travail chez IBM Research.

IBM Content Analytics est utilisé pour transformer le contenu en informations analysées, et cela est disponible pour les analyses détaillées similaire à la façon des données structurées seront analysés dans un ensemble d'outils de BI. IBM Content Analytics et Enterprise Search étaient autrefois deux produits distincts.

Les objectifs de solution de convergence à la fois de recherche d'entreprise améliorée qui utilise l'analyse de texte, ainsi que stand-alone Content Analytics besoins. ICAES a une intégration étroite avec la plate-forme IBM InfoSphere BigInsights, permettant de très grandes collections de recherche et d'analyse de contenu.

OpenText pour Big Data


OpenText, une société basée au Canada, est probablement mieux connu pour son leadership dans les solutions de gestion de l'information de l'entreprise. Sa vision tourne autour de la gestion, la sécurisation et l'extraction de valeur à partir des données non structurées des entreprises. Il offre ce qu'il qualifie “ middleware sémantique ”.

Selon la compagnie, son évolution de la technologie sémantique est enracinée dans sa capacité “ pour permettre l'analyse en temps réel avec une grande précision sur de grands ensembles de données à travers les langues, les formats et les domaines de l'industrie ”. L'idée derrière middleware sémantique est que la sémantique peuvent être exposés à des niveaux différents et travaillent avec des technologies différentes pour aborder les questions d'affaires.

En d'autres termes, les analyse de texte peuvent être activés et utilisés en cas de besoin.

SAS pour Big Data

SAS a été de résoudre des problèmes complexes de grandes de données pour une longue période. Il ya plusieurs années, il a acheté l'analyse de texte fournisseur Teragram pour renforcer sa stratégie d'utiliser les données structurées et non structurées à l'analyse et à intégrer ces données pour la modélisation descriptive et prédictive. Maintenant, ses capacités d'analyse de texte font partie de sa plate-forme et le texte d'analyse globale des données est considérée comme simplement une autre source de données.

SAS continue d'innover dans le domaine de l'analyse de haute performance pour assurer que le rendement répond aux attentes des clients. L'objectif est de prendre les problèmes qui prenaient des semaines à résoudre et les résoudre en jours, ou des problèmes qui servent à prendre des jours de résoudre et de les résoudre en quelques minutes à la place.

Par exemple, le SAS High Performance Analytics Server est une solution en mémoire qui vous permet de développer des modèles analytiques en utilisant des données complètes, et pas seulement un sous-ensemble de données agrégées. SAS dit que vous pouvez utiliser des milliers de variables et des millions de documents dans le cadre de cette analyse. La solution fonctionne sur EMC Greenplum ou appareils Teradata, ainsi que sur le matériel de produits en utilisant le système de fichiers Hadoop Distributed (HDFS).


» » » » Outils de Text Mining pour Big Data