ビッグデータのケーススタディまたはユースケースの例


13

さまざまな業界がビッグデータ分析をどのように使用しているかについて、多くのブログや記事を読みました。しかし、これらの記事のほとんどは言及していません

  1. これらの企業が使用したデータ。データのサイズは?
  2. データの処理に使用したツールテクノロジーの種類
  3. 彼らが直面した問題は何であり、彼らがデータを得た洞察がどのように彼らが問題を解決するのを助けたか。
  4. ニーズに合わせてツールやテクノロジーを選択した方法。
  5. データからどのようなパターンを特定したか、データからどのようなパターンを探していたか。

誰かがこれらすべての質問に答えてくれるのか、少なくともいくつかの質問に答えるリンクを提供してくれるのではないかと思います。実世界の例を探しています。

金融業界がビッグデータ分析をどのように利用しているかを誰かが共有できたら素晴らしいと思います。

回答:


14

ニュースアウトレットは「ビッグデータ」をかなり緩やかに使用する傾向があります。ベンダーは通常、特定の製品に関するケーススタディを提供します。オープンソースの実装についてはそれほど多くはありませんが、言及されています。例えば、Apacheはhadoopのケーススタディを構築するのに多くの時間を費やすつもりはありませんが、ClouderaやHortonworksのようなベンダーはおそらくそうでしょう。

以下は、金融部門におけるClouderaの事例研究です。

調査の引用:

ある大手グローバル金融サービス企業では、ClouderaとDatameerを使用して、不正な取引活動を特定しています。会社の資産管理グループ内のチームは、価格、ポジション、注文情報の毎日のフィードに対してアドホック分析を実行しています。すべての詳細データに対してアドホック分析を行うことにより、グループは特定の資産クラス全体の異常を検出し、疑わしい動作を特定できます。以前は、ユーザーはデスクトップスプレッドシートツールのみに依存していました。現在、DatameerとClouderaにより、ユーザーは強力なプラットフォームを使用して、より多くのデータをより迅速に選別し、開始前に潜在的な損失を回避できます。

大手小売銀行は、ClouderaとDatameerを使用して、Dodd-Frank Actおよびその他の規制で要求されるデータの正確性と品質を検証しています。銀行のデータ品質イニシアチブは、資産管理データと同様にローンと支店のデータを統合し、すべての記録が正確であることを保証する責任があります。このプロセスには、50を超えるデータの健全性および品質チェックの対象となるデータが含まれます。これらのチェックの結果は、データの破損とデータドメインの許容範囲が不利に変わらないこと、および投資家と規制当局に報告されるリスクプロファイルが慎重かつ規制要件に準拠していることを確認するために、経時的に傾向付けられます。結果は、データ品質ダッシュボードを通じて最高リスク管理責任者および最高財務責任者に報告されます。

Clouderaで他の金融関連の研究を見たことはありませんでしたが、あまり一生懸命検索しませんでした。ここで彼らのライブラリを見ることができます。

また、Hortonworksにはトレーディング戦略に関するケーススタディがあり、K-means、Hadoop、およびRを活用して戦略を開発するのにかかる時間を20%短縮しました。

各色は、利益と損失の同様の確率を持つ戦略のグループを示します

Hadoop(Hortonworks Data Platform)とk-meansアルゴリズムを使用して取引システムがどのように改善されたか

これらはすべての質問に答えるわけではありません。これらの研究の両方がそれらのほとんどをカバーしていると確信しています。特にツールの選択については何も表示されません。営業担当者は、製品全体を導入することに大きく関係していると思いますが、データサイエンティスト自身が最も使いやすいツールを活用しました。私はビッグデータ空間のその領域について多くの洞察を得ていません。


1
ありがとうございました。これは非常に役立ちます。私はそれがバグスペースであることを知っており、正しい答えはありません。ビッグデータのツールとテクノロジーを彼らのニーズに合わせて選択する方法を知りたいと思っています。私はこれを今のところ正しい答えとしてマークしていませんが、確かに多くの賛成票に値します。乾杯:)
Brown_Dynamite 14年

6

金融サービスはビッグデータの大ユーザーであり、革新者でもあります。一例は、住宅ローン債券取引です。質問に答えるには:

これらの企業が使用したデータ。データのサイズは?

  • 過去数年間に発行された各住宅ローンの長い履歴、およびそれらに対する月ごとの支払い。(数十億行)
  • クレジット履歴の長い履歴。(数十億行)
  • 住宅価格指数。(それほど大きくない)

データを処理するためにどのようなツールテクノロジーを使用しましたか?

それは異なります。NetezzaやTeradataなどのデータベース上に構築された社内ソリューションを使用する企業もあります。その他は、データプロバイダーが提供するシステムを介してデータにアクセスします。(Corelogic、Experianなど)一部の銀行は、KDBや1010dataなどのカラム型データベーステクノロジーを使用しています。

彼らが直面した問題は何であり、彼らがデータを得た洞察がどのように彼らが問題を解決するのを助けたか。

重要な問題は、住宅ローン債券(住宅ローン担保証券)の期限前償還またはデフォルトの決定です。これは、政府の保証がない債券にとって特に重要です。支払い履歴、クレジットファイルを掘り下げ、家の現在価値を理解することにより、デフォルトの可能性を予測することができます。金利モデルと前払いモデルを追加すると、前払いの可能性を予測するのにも役立ちます。

ニーズに合わせてツールやテクノロジーを選択した方法。

プロジェクトが社内のITによって推進されている場合、通常はOracle、Teradata、Netezzaなどの大規模データベースベンダーを基盤としています。それがクォンタットによって駆動される場合、データベンダー、またはサードパーティの「オールイン」システムに直接アクセスする可能性が高くなります。

データからどのようなパターンを特定したか、データからどのようなパターンを探していたか。

100000000bengworththatamoあなたはntoraslttleas


機械学習の手法が前払いモデリングに使用されている事例を見たことがありますか。すなわち、ニューラルネット、ランダムフォレスト、GBM?
ジョシュ

5

Kaggleにはアプリケーションの簡単な要約があります。

Revolution Analyticsは、多くの一般的なケーススタディ、データシート、ホワイトペーパーを公開しました。

科学および工学のアプリケーションについては、Nutonianのケーススタディを参照できます。

Analyxは、潜在的なクライアントに商取引のアプリケーションについて話した。

フィナンシャル・タイムズ紙はビッグデータのビジネスアプリケーションについての物語のコレクションを発表しました。

McKinseyは2011年にアプリケーションの概要を説明しました。

他のコンサルティング会社も同様の報告を行った。

ガートナーはビッグデータ向けにHype Cycleを作成しました。

ここに画像の説明を入力してください

製品を宣伝したい他社のケーススタディとホワイトペーパーは言うまでもありません。


1

O'Reillyの無料データレポートご覧ください。銀行とフィンテック、スポーツ、ファッション、音楽、健康、石油とガスなどに関するレポートを見つけることができます。

前述のマッキンゼーのレポートは、古典的なレポートであり、必読であることに注意してください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.