仕事の説明から情報をどのように分類/抽出しますか?


8

ユーザーが入力した一連のジョブの説明があります。あらゆる種類のミススペルと悪いデータがあります。つまり:

...
tulane univ hospital
tulip
tullett prebon
... 
weik investment
weill cornell university medical center
weis
weiss waldee hohimer dds
welded constrction l.p.
welder
welder
welder
...

仕事に関連する洞察でこの価値を「高める」ためにどのようなステップを踏みますか?

私が考えることができる最高のものは、それをwolfram alphaに与えることです。しかし、Pythonを使用して利用できる他のアクセシブルなテクニックはあるのでしょうか。

更新:標準の職業分類があることがわかりました。名前をSOCに、SOCを平均給与の範囲に一致させたいと思います。


これらを手動でマッピングできますか?
Aksakal 2014

いいえ、作業の説明の10,000がある...
fabrizioM

2
10,000語は約22ページです。あなたが私に尋ねてもそれほどではありません。
Aksakal 14

回答:


5

これを開始する潜在的な方法は、テキストおよびトピックの分析に使用できるPythonの自然言語ツールキット(NLTK)を利用することですが、文字列から特定の単語を抽出するための便利な機能もあります。たとえば、仕事の説明から「医療」、「病院」などの単語を抽出して、幅広い職業やセクターを見つけることができます。スペルミスとデータの品質のため、SOCを自分でコーディングするような完全に自動化された方法で行うことはできないと思います。それにもかかわらず、このように幅広い職業とセクターを持っていることは、すでにタスクをはるかに簡単にします。

これ以上の自然言語処理/テキストおよびトピック分析/テキストマイニングに興味がある場合、かなり安価であるが有用な本がBird et al。によるものです。(2009) "のPythonで自然言語処理"

職業上の称号は、David Autorによって給与にリンクされています。彼は、現在の人口調査のデータ(米国の失業率も生成するために使用されるデータ)を、各職業の給与を取得できるSOCタイトルにリンクしました。これらから、各職種の平均給与を簡単に計算でき、各職種の(職種所得の不平等内の)分散についても把握できます。デビッドは自分のデータセットをMITのデータアーカイブで利用できるようにしています


2

kk

LDAを使った私の分析はRでしたが、Pythonパッケージはもちろんありますが、自分の仕事で使ったことはありません。

SOCの職業に対応するトピック番号を選択することを検討してください。トピックを生成したら、それらを検査し、SOCへの意味のあるリンクが見つかるかどうかを確認し、満足するまでトピック番号を適宜調整します。

各職務記述の給与見積もりを作成するには、トピック確率を使用して各給与に重みを付けることを検討してください。たとえば、職務記述書がソフトウェア開発者のSOCである確率が80%である場合、給与に.80と残りのトピックを同様に重み付けします。ノイズが多すぎる場合は、カットオフ(おそらく20%)を設定し、残りのトピックの重みを給与見積もりから削除します。

スペルミスについては、常にスペルチェッカーで攻撃し、ツールなしの結果と比較することができます。また、LDAを実行する前に、句読点の削除や単語のステミングなどの標準のNLPテクニックを使用してください。


スペルチェックタイプの手順を実行するのは比較的簡単なはずです。(またはむしろ、単語カウントで使用されるすべての単語のリストを作成し、それを使用して(たとえば、最も稀な単語のみを調べて)正しいスペルに再マッピングします。OpenReginegithubプロジェクトを確認することをお勧めします(以前のgoogleオープンリファイン)整頓
seanv507 2014

1

それらは、肩書きほどの仕事の説明ではありません。SOC定義からこの例のような説明があった場合、Chrisの提案に従ってトピックモデルを使用できます。

1011最高経営責任者取締役会または同様の運営機関によって設定されたガイドラインの範囲内で、ポリシーを決定および策定し、企業または民間および公共部門の組織の全体的な方向性を提供します。部下の幹部やスタッフマネージャーの助けを借りて、最高レベルの管理で業務活動を計画、指示、または調整します。

長い形式のテキストがない場合、ソーシャルネットワークを機能として使用する単純なベイジアン分類子を使用できます(分類の問題があるため)。人々は友達と同じ種類の仕事をしている可能性が高いためです。もう1つの機能は、役職とSOC間のマッピングを提供する、ダイレクトマッチタイトルファイル(このデータベースはまさに必要なものだと思います)に対する文字列の類似性です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.