適切な変数名は次のとおりです。
a)短い/入力しやすい、
b)覚えやすい
c)理解可能/伝達的。
忘れ物はありますか?一貫性は探すべきものです。私が言うには、一貫した命名規則が上記の品質に貢献しているということです。一貫性は、(b)思い出しやすさと(c)理解しやすさに貢献しますが、多くの場合、他の要因がより重要です。(a)名前の長さ/入力のしやすさ(たとえば、すべて小文字)と(c)理解しやすさの間には明確なトレードオフがあります。
何千人もの人々がデータを使用しており、多くの人が私のコードを使用してデータを準備し、いくつかのタイプの分析を容易にすることを期待しています。青年期の健康に関する縦断的研究のデータは、複数のデータセットに分類されます。私の最初のステップは、最も一般的に使用されるデータセットの227変数を取得し、それらを再コード化して、より意味のある名前を付けることでした。元の変数名は、「aid2」、「age」、「male.is」に名前を変更した「aid」、「s1」、「s2」のようなものです。他のデータセットには他の何千もの変数があり、研究者の目標に応じてマージされる場合があります。
変数の名前を変更している限り、それらをできるだけ使いやすくしたいと思います。これが私が検討した問題のいくつかです。これまでのところ、小文字のみを使用し、ダッシュやアンダースコアの使用は避けており、ピリオドは非常に特定の目的でのみ使用しています。これには、単純さと一貫性という長所があるため、ほとんどの変数で問題は発生しません。しかし、物事がより複雑になるにつれて、私は一貫性を壊したくなります。たとえば、変数「talkprobmsum」を例にとると、「talkProbMSum」または「talk.prob.m.sum」として読む方が簡単ですが、大文字またはピリオドを使用して単語を区切る場合は、すべての変数に対してそれを行うべきではありませんか?
一部の変数は複数回記録されます。たとえば、レース変数なので、.isまたは.ihを追加して、それらが学校内または家庭内のアンケートに由来するかどうかを示します。しかし、確かにまだ気づいていない繰り返しがいくつかあります。データセットへの参照をすべての変数の名前に追加する方が良いでしょうか?
多くの変数をグループ化して標準化する必要があります。これは、.zmsを追加して、男性別および学校別のZスコアを意味します。
一般的または特定の考えやリソースは大歓迎です。私のコードの一部、および変数名のリストを含む記述統計については、このリポジトリを参照してください。私の簡単には、このコードを共有するための理由を説明し、ここで、それが少し公表された、ここで、これらの最後の2つのリンクが変数の命名規則の問題には本当に関係ありません。 追加:コメントで明らかな混乱を避けようと、これを軽く編集しました。考えてくれてありがとう!
2016年9月5日追加:注目に値するそのハドレーウィッカムのRスタイルガイドとGoogleのRスタイルガイドを ...ハドレー氏は述べています:
変数名と関数名は小文字にする必要があります。名前内の単語を区切るには、アンダースコア(_)を使用します。
グーグルは言う:
識別子にアンダースコア(_)またはハイフン(-)を使用しないでください。識別子には、次の規則に従って名前を付ける必要があります。変数名の推奨形式は、すべて小文字とドットで区切られた単語(variable.name)ですが、variableNameも受け入れられます。関数名には最初の大文字があり、ドットはありません(FunctionName)。定数は関数のように名前が付けられますが、最初はkです。
R
ではなく、データを文書化して使用するための適切な実践についてのようです。