まだ簡単にデータを調査できるソフトウェア


20

スプレッドシートの騒乱と戦う私の試みでは、真の統計ソフトウェア(R、Stataなど)などのより堅牢なツールを推し進めることで、しばしば福音主義的です。最近、私はこの見方で、彼らは単にプログラムを学ぶことはないだろうと率直に言った人に挑戦されました。プログラミングを必要としないデータ分析ツールを提供したいと思います(ただし、理想的には、後でつま先を水に浸すことにした場合はプログラミングに拡張されます)。真っ直ぐな顔で推奨できるデータ探索用のパッケージは何ですか?


5
@ gsk3-興味深い質問。この「プログラマーフォーブ」は複雑なスプレッドシートを処理する必要がないと思いますか?おそらく、彼/彼女は彼らのイデオロギーを守り、スプレッドシート自体を使って一生懸命仕事をしたいと思いますか?:)
確率論

@probabilityislogic:「programaphobe」は、問題を引き起こすとそれらを処理しますが、結果を処理するためのトリックのバッグがあります。私は、古典的なスプレッドシートの議論を少し役に立たせてみました(まあ、このスタイルの解決策を検討しても構わないので、いくつか役にたちます!)。
アリB.フリードマン

@ gsk3-ああ、それ自体は問題ではないプログラムですが、この人はもはや「専門家」ではなく、下から始める必要がありますか?
確率論的

2
@probabilityislog-埋没費用が問題の大きな部分を占めていると思います、はい。それらのコストの一部は疑いなく社会的であり、それらのいくつかは、物事の新しい方法を学習する際の時間と効率の損失です。
アリB.フリードマン

3
この漫画は状況を適切に表現していると思います。あなたが紹介している人がプログラミングに対して固執している場合、これは強すぎる選択に反する可能性があります。より良い戦略は、スプレッドシートベースの分析の欠陥を指摘することです。たとえば、新しいExcelファイルで値および、それらを合計します(これはExcel 2007で機能します)。次に、自尊心のある統計パッケージが警告なしに同様の間違いを提供することはないことを説明し、それから働きます。116114
mpiktas

回答:


7

私はPythonで作業の95%をプログラミングし、残りをRまたはMATLABまたはIDL / PV-WAVE(そしてまもなくSAS)でプログラミングします。しかし、私は、結果を得るまでの時間が選択された分析の大きな要因になることが多いため、ポイントアンドクリックツールもよく使用します。私の経験では、単一の言語がないように、分析を行うための単一の堅牢で柔軟なGUIツールはありません。私は通常、次のフリーおよび商用ソフトウェアのコレクションをまとめます

JMP、Stata、Statisticaなどは使用していませんが、使用したいと思います。

これらのツールを使用するには、さまざまなGUIとモデリングの複数の抽象化を学習する必要がありますが、これは当時の苦痛ですが、後でより迅速なアドホックな結果を得ることができます。私はOPと同じ船に乗っています。なぜなら、私が働くほとんどの人は本当に頭がいいのですが、彼らは言語を学ぶことも、複数のGUIとアプリケーション固有の用語も気にしないからです。そのため、私はExcelがビジネスの世界で分析の90%を推進することを受け入れることに辞任しました。したがって、pyinexのようなものを使用して、同僚の大多数が期待するのと同じExcelプレゼンテーションレイヤーにより良い分析を提供できるようにすることを検討しています。

更新:Do-modeling-with-programming-but-make-Excel-the-presentation-layerテーマを続けて、Excelセルに埋め込むためのTufteスタイルのグラフィックスを提供するこの男のWebサイトに出会いました。シンプルで無料です!


1
JMPは非常に優れていると言えます。Rに精通していても、JMPがデータをナビゲートおよび分析するより高速な方法である場合があります。
イテレーター

8

探索的(おそらくインタラクティブ)データ分析に関する限り、私は以下を見ることをお勧めします。

  • Wekaは、もともとデータマイニングアプリケーションを対象としていますが、データの要約に使用できます。
  • モンドリアン、インタラクティブなデータの視覚化。
  • KNIMEは、データフローを構築するという考え方に依存しており、WekaおよびRと互換性があります。

すべての3つの内のデータ受け入れarffcsvフォーマットを。

私の見解では、Stataはそれほどプログラミングの専門知識を必要としません。実際、これは魅力の一部でもあります。基本的な分析のほとんどは、線形モデルでの予測など、特定のパラメーターをカスタマイズするためのダイアログボックスを使用して、ポイントアンドクリックのユーザーアクションによって実行できます。@ gsk3で述べたように、RcmdrDeducerなどの外部GUIを使用する場合、それほどではありませんが、Rにも同じことが当てはまります。


Stataの場合は+1。基本的な操作はすべてポイントアンドクリックで実行できますが、ポイントアンドクリックで生成されたコマンドを吐き出すので、学習/変更することもできます。もちろん、セルに数式を入力するわけではありませんが、データとのやり取りの方法はスプレッドシートに似ています。
ウェイン14年

8

一部の人々は、プログラミングを単にコマンドラインステートメントを入力することだと考えています。その時点で、おそらくあなたはそれらを奨励することに少し迷っています。ただし、スプレッドシートを既に使用している場合は、数式を入力する必要があります。これらはコマンドラインステートメントに似ています。論理的で自動化された分析という意味でプログラミングを行いたくないという場合は、プログラミングなしでRまたはStataで分析を実行できることを伝えることができます。

スプレッドシートで統計を実行できる場合...実行したいすべての操作...実行したいすべての統計分析は、RまたはStataでも「プログラミング」せずに実行できます。スプレッドシート内のデータを整理して整理し、テキストとしてエクスポートすることができます。次に、プログラミングをまったく行わずに分析を実行します。

それが、私がRのイントロを時々する方法です。スプレッドシートで実行できるデータ分析を実行するためのプログラミングは必要ありません。

それらをそのように引っ掛けたら、魚をゆっくりとリールで巻いてください... :)数年で、彼らが優れたプログラマーになったことを彼らに賞賛してください。

また、このドキュメントを同僚に見せたり、少なくとも自分で読んで、あなたの主張をよくしたいと思うかもしれません。


1
良い点ですが、ここでいくつかの注意事項があります。Excelには、セルに数式を入力するときにポップアップするツールヒントがあり、簡単なタスクを "プログラム"することがはるかに簡単になります。また、多くのExcelパワーユーザーがいるため、動けなくなる場合は、隣の人が助けてくれる可能性があります。そして、Excelがインストールされています。誰かにRを試してもらうには、Rのセットアップを支援し、オープンソースソフトウェアを活用する方法を学習する必要があります(また、どのフォーラムを検索するか、どのブートストラップパッケージを使用するかなど)。プログラミングはある意味で簡単な部分です。その生態系は難しい部分です。
ジョシュヘマン

本当の書式設定の問題がでR時には一つのパッケージが使用するXTS、別の1 data.frames ...それは本当だ初心者のための混乱、です... Excelでもありません
RockScience

fRed、データの書式設定に問題がある可能性があることに同意しますが、私の回答はスプレッドシートで既に実行できる分析として認定されたことに留意してください。これはそれほど多くの分析ではなく、通常は1つのデータ形式になります。
ジョン

Rを使用した「プログラミング」のオーバーヘッドは、Excelを使用した場合よりもいくぶん大きくなります。これらはユーザーを夢中にさせるものです。Rにピボットテーブルに似た一流のGUIがある場合は、おそらく。しかし、それまで...
ラルフ冬

8

ここでJMPの提案をします。私が選んだプログラミング以外のデータ探索ツールが私にとって好ましい理由はいくつかあります。

  1. 本当に優れた視覚化ツール。最も基本的なEDAタイプのプロットは、Rと同じくらい優れており、出版可能なプロットに近いものを作成するために使用するのがかなり簡単です。また、非常に柔軟な視覚化ツールも用意されているため、データをひねったり曲げたりして、ストーリー全体を把握できます。
  2. 驚くほど強力。卒業後4年目まで、JMPがすぐにできなかったことを見つけるまでに時間がかかりました。悪くない。
  3. スクリプト可能性。これは私にとって大きなことです。GUIの主な弱点は、実行した内容を再現するのが非常に難しいことです。JMPを使用すると、GUIのスクリプトを作成できます。これらのスクリプトを生成するのは非常に簡単です。

JMPの場合は+1。これは私が今まで使った中で最高の基本的な統計情報です。
ザック

1
同意しました(ポイント#1で十分)。いくつかの点で、EDAの場合はRよりも優れており、反復ワークフローにうまく挿入できます。Rなしですでに動作している場合、JMPはRを追加せずに動作する合理的な方法です。Rにリンクすることもできるため、RプログラマーはJMPにプラグインするツールを作成し、Eloi、errr、ユーザーが続行できるようにしますすべてがただのダンディだと信じること。
イテレーター

6

単にドラッグアンドドロップするだけでデータを探索および表示できるさまざまな方法があるため、Tableauをデータ探索および視覚化の優れたツールとして推奨できます。グラフはかなりシャープで、プレゼンテーション用にPDFに簡単に出力できます。必要に応じて、「プログラミング」で拡張できます。私は定期的にこのツールを「R」とSASとともに使用し、それらはすべて一緒にうまく機能します。


3

ジョンが言ったように、データ探索にはRでのプログラミングはあまり必要ありません。以下に、ユーザーに提供できるデータ探索コマンドのリストを示します。(私はこれを思いついたばかりです;あなたは確かにそれを拡張することができます。)

どのパッケージからでもデータをエクスポートします(引用符なしで数値データをエクスポートすると便利です)。その後、Rでデータを読み取ります。

ChickWeight=read.csv('chickweight.csv')

テーブルを作ります。

table(ChickWeight$Diet)

Rにどのようなグラフィックを与えるかを推測させます。それは時々非常にうまく機能します。

plot(ChickWeight)
plot(ChickWeight$weight)
plot(ChickWeight$weight~ChickWeight$Diet)

特定のプロット関数の束は、単一の変数で非常に簡単に機能します。

hist(ChickWeight$weight)

サブセットを取る

plot(subset(ChickWeight,Diet=='2'))

人々がそれに慣れている場合のSQLのような構文(詳細はこちら

library(sqldf)
plot(sqldf('select * from ChickWeight where Diet == "2"'))

PCA(もちろん3つ以上の変数があります。)

princomp(~ ChickWeight$weight + ChickWeight$Time)

3

これは答えよりも嘆きです...

これに関して私が見た中で最高のソフトウェアは、Xlisp-Statの上に構築されたArcです。これは、多くの統計的推論機能だけでなく、多くの組み込みのインタラクティブなグラフィックスを備えたデータ探索のための素晴らしいソフトウェアです。私の意見では、データ探索の使いやすさと、Lispプログラミングでさらに拡張する能力に近いものは他にありません。私の意見では、Rの対話機能は、10年後のArcなどの方法で使用できるようになりました。そして私が知る限り、これらの機能を使って、Arcと同じくらい便利なインタラクティブインターフェイスを構築した人はまだいません。

残念ながら、それは実際には広まりませんでしたので、開発者はほとんどすべてがRでの作業に切り替えました。最後に更新されたのは2004年7月です。PCとLinux / Unixのバージョンは引き続き機能し、ニーズに応じて試してみる価値があります。Macの場合、最良の選択肢はX11でLinux / Unixバージョンを試すことです。この方法でいくつかのシステムで動作するようになりました。このサイトで言及されているMacバージョンは、「クラシック」Macでのみ機能します。

Mondrianも簡単に言及しますが、これは簡単に試しただけですが、データ探索のための素晴らしいグラフィカルな対話性があるようです。


アークについて聞いたことがなかったが、それをチェックアウトするつもりだ。ありがとう。
アリB.フリードマン

1
(+1)Lispの世界から再び聞いてよかった。私もxlispstatのファンです(そして、Ruke TierneyがRプロジェクトで非常に活発であることを感謝しています)。
chl

3

この目的のために有望に見える新しいソフトウェアシステムは、Rの上に構築されたDeducerです。残念ながら、新しいので、人々が尋ねる可能性のある幅広い質問をまだカバーしていないと思いますが、つま先を満たします-後で決定する場合に、人々を真のパッケージに導くための水の基準。

過去にもJMPを使用しましたが、JMPには優れた双方向性がありました。インターフェースのいくつかは、これらの目的には複雑すぎるかもしれないと心配しています。また、無料ではないため、潜在的なスプレッドシート難民が気まぐれに試すのが難しくなります。


少し有望に見えるRattleもあります。


JMPについて-誤解がない場合、試用版とアカデミックライセンスが妥当な範囲内にあります。
イテレーター

3

データに含まれるデータを調査し、データをクリーンアップするには、以前のGoogle Refine(現在はOpen Refine)が非常に優れたGUIです。これは、Excelのようなものよりも準備とクリーニングにはるかに強力です。次に、分析のためにR-Commanderのようなものに切り替えます。


2

Rまたはその「GUI」のいずれかに答える人は誰も質問を読まなかった。

このために特別に設計されたプログラムがあり、JMPと呼ばれます。はい、無料の試用版がありますが、学生や大学のスタッフにとっては信じられないほど安くなっています(50ドルなど)。

RapidMinerもあります。これは、データマイニングと統計分析のためのワークフローベースのGUIです。無料でオープンソースです。


1
@Neilなぜそうなのですか?OPは「しかし、理想的にはプログラミングにまで拡張される」と明記しました。Rはほとんどすべての商用(SPSS、JMP、Statisticaなど)または無料(Knime、Rapidminer)の統計ソフトウェアにプラグインされており、RserveはRと通信するためのバックエンドとして使用できます(例:遺伝学研究用のplinkソフトウェア)。この目的で使用されます。JMPの無料試用版では、外部データセットを操作できません。間違っていますか?(興味深いことに、Rに答えたすべての人、および代替ソフトウェアがダウン投票されました。)
chl

私はRが好きで、それを支持していますが、統計/データマイニングを学びたいと思っていて、実際にプログラムする方法を知らない人はそれを使用できません。そして、私はすべてのGUIで遊んだことがありますが、jmpと比較して恐ろしいです。Rがjmpのようなguiを取得する日を待っているだけで、その後はすべてがうまくいきます。
ニールマクギガン

-1は、回答する前に人々が質問を読まないという提案と、RがJMPまたはRapidMinerよりも悪い理由について実際の議論を提供しないことを示唆しています。一般的に、Rはすべてに対する答えではないことに同意しますが、このトピックは、本当に厄介になる可能性と少し矛盾していることに注意してください。したがって、下票。
mpiktas

Rは素晴らしいですが、簡単ではありません。それが彼がタイトルで求めたものです。
ニール

@Neil、はい、しかし、簡単でありながら堅牢なデータ探索のようなものは存在しないと主張できます。
mpiktas

1

まあ、この特定のツールは私の業界で人気があります(ただし、設計によって業界固有ではありません):http : //www.umetrics.com/simca

潜在変数タイプの多変量解析(PCAおよびPLS)を行うことができ、すべての付随する解釈プロット/計算、寄与プロット、変数重要度プロット、Q2計算などの質問ツールが含まれます。

多くの場合、OLS / MLRタイプの方法が適さない高次元(多くの場合、高度に相関/共線性)の産業データセットで使用されます(たとえば、センサーのボート負荷からの情報、ログ情報など)。

完全なGUI環境で動作し、ユーザーは1行のコードを記述する必要はありません。残念ながら無料ではなく、プログラミングで拡張することはできません。


1

私の意見では、自分でテストをコーディングしないと、エラーや結果の誤解が生じやすくなります。

コンピューターのスキルを持つ統計学者を雇うことを勧めるべきだと思います。

常に同じことを行う場合は、実際に小さなツール(ブラックボックス)を使用して処理を行うことができます。しかし、これがまだデータ探索と呼ばれるかどうかはわかりません。


1
私はこの意見に多かれ少なかれ同意しますが、多くの設定でこの気の利いた見方が本当に可能だとは思いません。
アリB.フリードマン

1

Rコマンダーと呼ばれるジョンフォックスのRパッケージをお勧めします。

http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/

SPSS(または同様のもの)に似たユーザーインターフェイスを作成します。これは初心者に最適であり、ユーザーがコードを入力する必要はまったくありません。それはすべてドロップダウンボックスを介して行われます(作業中にRコンソールを最小化することもできます)。

私にとって、このパッケージの利点は、初心者向けに完全に操作可能なユーザーインターフェイスを備えながら、Rの優れた計算能力をすべて活用できることです。


1

もう1つの便利なツールはWindows専用ですが、Spotfireです。これは、変数の単一およびペアのさまざまなヒストグラムと散布図をすばやく確認するのに非常に便利です。単一の変数と単純な統計に基づいたペアをランク付けするのに役立つ研究ツール-HCILのHierarchical Clustering Explorer。最も興味深い変数/変数のペアを見つけるのに便利です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.