スプレッドシートの騒乱と戦う私の試みでは、真の統計ソフトウェア(R、Stataなど)などのより堅牢なツールを推し進めることで、しばしば福音主義的です。最近、私はこの見方で、彼らは単にプログラムを学ぶことはないだろうと率直に言った人に挑戦されました。プログラミングを必要としないデータ分析ツールを提供したいと思います(ただし、理想的には、後でつま先を水に浸すことにした場合はプログラミングに拡張されます)。真っ直ぐな顔で推奨できるデータ探索用のパッケージは何ですか?
スプレッドシートの騒乱と戦う私の試みでは、真の統計ソフトウェア(R、Stataなど)などのより堅牢なツールを推し進めることで、しばしば福音主義的です。最近、私はこの見方で、彼らは単にプログラムを学ぶことはないだろうと率直に言った人に挑戦されました。プログラミングを必要としないデータ分析ツールを提供したいと思います(ただし、理想的には、後でつま先を水に浸すことにした場合はプログラミングに拡張されます)。真っ直ぐな顔で推奨できるデータ探索用のパッケージは何ですか?
回答:
私はPythonで作業の95%をプログラミングし、残りをRまたはMATLABまたはIDL / PV-WAVE(そしてまもなくSAS)でプログラミングします。しかし、私は、結果を得るまでの時間が選択された分析の大きな要因になることが多いため、ポイントアンドクリックツールもよく使用します。私の経験では、単一の言語がないように、分析を行うための単一の堅牢で柔軟なGUIツールはありません。私は通常、次のフリーおよび商用ソフトウェアのコレクションをまとめます
JMP、Stata、Statisticaなどは使用していませんが、使用したいと思います。
これらのツールを使用するには、さまざまなGUIとモデリングの複数の抽象化を学習する必要がありますが、これは当時の苦痛ですが、後でより迅速なアドホックな結果を得ることができます。私はOPと同じ船に乗っています。なぜなら、私が働くほとんどの人は本当に頭がいいのですが、彼らは言語を学ぶことも、複数のGUIとアプリケーション固有の用語も気にしないからです。そのため、私はExcelがビジネスの世界で分析の90%を推進することを受け入れることに辞任しました。したがって、pyinexのようなものを使用して、同僚の大多数が期待するのと同じExcelプレゼンテーションレイヤーにより良い分析を提供できるようにすることを検討しています。
更新:Do-modeling-with-programming-but-make-Excel-the-presentation-layerテーマを続けて、Excelセルに埋め込むためのTufteスタイルのグラフィックスを提供するこの男のWebサイトに出会いました。シンプルで無料です!
探索的(おそらくインタラクティブ)データ分析に関する限り、私は以下を見ることをお勧めします。
すべての3つの内のデータ受け入れarff
やcsv
フォーマットを。
私の見解では、Stataはそれほどプログラミングの専門知識を必要としません。実際、これは魅力の一部でもあります。基本的な分析のほとんどは、線形モデルでの予測など、特定のパラメーターをカスタマイズするためのダイアログボックスを使用して、ポイントアンドクリックのユーザーアクションによって実行できます。@ gsk3で述べたように、RcmdrやDeducerなどの外部GUIを使用する場合、それほどではありませんが、Rにも同じことが当てはまります。
一部の人々は、プログラミングを単にコマンドラインステートメントを入力することだと考えています。その時点で、おそらくあなたはそれらを奨励することに少し迷っています。ただし、スプレッドシートを既に使用している場合は、数式を入力する必要があります。これらはコマンドラインステートメントに似ています。論理的で自動化された分析という意味でプログラミングを行いたくないという場合は、プログラミングなしでRまたはStataで分析を実行できることを伝えることができます。
スプレッドシートで統計を実行できる場合...実行したいすべての操作...実行したいすべての統計分析は、RまたはStataでも「プログラミング」せずに実行できます。スプレッドシート内のデータを整理して整理し、テキストとしてエクスポートすることができます。次に、プログラミングをまったく行わずに分析を実行します。
それが、私がRのイントロを時々する方法です。スプレッドシートで実行できるデータ分析を実行するためのプログラミングは必要ありません。
それらをそのように引っ掛けたら、魚をゆっくりとリールで巻いてください... :)数年で、彼らが優れたプログラマーになったことを彼らに賞賛してください。
また、このドキュメントを同僚に見せたり、少なくとも自分で読んで、あなたの主張をよくしたいと思うかもしれません。
ここでJMPの提案をします。私が選んだプログラミング以外のデータ探索ツールが私にとって好ましい理由はいくつかあります。
単にドラッグアンドドロップするだけでデータを探索および表示できるさまざまな方法があるため、Tableauをデータ探索および視覚化の優れたツールとして推奨できます。グラフはかなりシャープで、プレゼンテーション用にPDFに簡単に出力できます。必要に応じて、「プログラミング」で拡張できます。私は定期的にこのツールを「R」とSASとともに使用し、それらはすべて一緒にうまく機能します。
ジョンが言ったように、データ探索にはRでのプログラミングはあまり必要ありません。以下に、ユーザーに提供できるデータ探索コマンドのリストを示します。(私はこれを思いついたばかりです;あなたは確かにそれを拡張することができます。)
どのパッケージからでもデータをエクスポートします(引用符なしで数値データをエクスポートすると便利です)。その後、Rでデータを読み取ります。
ChickWeight=read.csv('chickweight.csv')
テーブルを作ります。
table(ChickWeight$Diet)
Rにどのようなグラフィックを与えるかを推測させます。それは時々非常にうまく機能します。
plot(ChickWeight)
plot(ChickWeight$weight)
plot(ChickWeight$weight~ChickWeight$Diet)
特定のプロット関数の束は、単一の変数で非常に簡単に機能します。
hist(ChickWeight$weight)
サブセットを取る
plot(subset(ChickWeight,Diet=='2'))
人々がそれに慣れている場合のSQLのような構文(詳細はこちら)
library(sqldf)
plot(sqldf('select * from ChickWeight where Diet == "2"'))
PCA(もちろん3つ以上の変数があります。)
princomp(~ ChickWeight$weight + ChickWeight$Time)
これは答えよりも嘆きです...
これに関して私が見た中で最高のソフトウェアは、Xlisp-Statの上に構築されたArcです。これは、多くの統計的推論機能だけでなく、多くの組み込みのインタラクティブなグラフィックスを備えたデータ探索のための素晴らしいソフトウェアです。私の意見では、データ探索の使いやすさと、Lispプログラミングでさらに拡張する能力に近いものは他にありません。私の意見では、Rの対話機能は、10年後のArcなどの方法で使用できるようになりました。そして私が知る限り、これらの機能を使って、Arcと同じくらい便利なインタラクティブインターフェイスを構築した人はまだいません。
残念ながら、それは実際には広まりませんでしたので、開発者はほとんどすべてがRでの作業に切り替えました。最後に更新されたのは2004年7月です。PCとLinux / Unixのバージョンは引き続き機能し、ニーズに応じて試してみる価値があります。Macの場合、最良の選択肢はX11でLinux / Unixバージョンを試すことです。この方法でいくつかのシステムで動作するようになりました。このサイトで言及されているMacバージョンは、「クラシック」Macでのみ機能します。
Mondrianも簡単に言及しますが、これは簡単に試しただけですが、データ探索のための素晴らしいグラフィカルな対話性があるようです。
この目的のために有望に見える新しいソフトウェアシステムは、Rの上に構築されたDeducerです。残念ながら、新しいので、人々が尋ねる可能性のある幅広い質問をまだカバーしていないと思いますが、つま先を満たします-後で決定する場合に、人々を真のパッケージに導くための水の基準。
過去にもJMPを使用しましたが、JMPには優れた双方向性がありました。インターフェースのいくつかは、これらの目的には複雑すぎるかもしれないと心配しています。また、無料ではないため、潜在的なスプレッドシート難民が気まぐれに試すのが難しくなります。
少し有望に見えるRattleもあります。
データに含まれるデータを調査し、データをクリーンアップするには、以前のGoogle Refine(現在はOpen Refine)が非常に優れたGUIです。これは、Excelのようなものよりも準備とクリーニングにはるかに強力です。次に、分析のためにR-Commanderのようなものに切り替えます。
Rまたはその「GUI」のいずれかに答える人は誰も質問を読まなかった。
このために特別に設計されたプログラムがあり、JMPと呼ばれます。はい、無料の試用版がありますが、学生や大学のスタッフにとっては信じられないほど安くなっています(50ドルなど)。
RapidMinerもあります。これは、データマイニングと統計分析のためのワークフローベースのGUIです。無料でオープンソースです。
まあ、この特定のツールは私の業界で人気があります(ただし、設計によって業界固有ではありません):http : //www.umetrics.com/simca
潜在変数タイプの多変量解析(PCAおよびPLS)を行うことができ、すべての付随する解釈プロット/計算、寄与プロット、変数重要度プロット、Q2計算などの質問ツールが含まれます。
多くの場合、OLS / MLRタイプの方法が適さない高次元(多くの場合、高度に相関/共線性)の産業データセットで使用されます(たとえば、センサーのボート負荷からの情報、ログ情報など)。
完全なGUI環境で動作し、ユーザーは1行のコードを記述する必要はありません。残念ながら無料ではなく、プログラミングで拡張することはできません。
私の意見では、自分でテストをコーディングしないと、エラーや結果の誤解が生じやすくなります。
コンピューターのスキルを持つ統計学者を雇うことを勧めるべきだと思います。
常に同じことを行う場合は、実際に小さなツール(ブラックボックス)を使用して処理を行うことができます。しかし、これがまだデータ探索と呼ばれるかどうかはわかりません。
Rコマンダーと呼ばれるジョンフォックスのRパッケージをお勧めします。
http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/
SPSS(または同様のもの)に似たユーザーインターフェイスを作成します。これは初心者に最適であり、ユーザーがコードを入力する必要はまったくありません。それはすべてドロップダウンボックスを介して行われます(作業中にRコンソールを最小化することもできます)。
私にとって、このパッケージの利点は、初心者向けに完全に操作可能なユーザーインターフェイスを備えながら、Rの優れた計算能力をすべて活用できることです。
もう1つの便利なツールはWindows専用ですが、Spotfireです。これは、変数の単一およびペアのさまざまなヒストグラムと散布図をすばやく確認するのに非常に便利です。単一の変数と単純な統計に基づいたペアをランク付けするのに役立つ研究ツール-HCILのHierarchical Clustering Explorer。最も興味深い変数/変数のペアを見つけるのに便利です。