ブログのテキスト分析を実行するソフトウェアはありますか?[閉まっている]


8

私の会社は、過去11年間のクライアントのWordpress 2ブログ投稿のPivotViewer視覚化を作成することを目指しています。ただし、これを行うには、並べ替え可能なカテゴリとして使用するために、やや無計画で不完全な、一般に不十分なタグを編集する必要があります。私たちは彼らのブログのエントリを分析し、単語カウントを実行して、私たちが何を扱っているかを理解するためのツールを探しています。

理想的には、これらの機能をすべて備えています。

  1. 単語のブラックリスト化(無視)
  2. 単語ステミング
  3. カスタム同義語のマージ
  4. すべての用途を数える
  5. 単語が表示される投稿の数を数えます。

この種のテキスト分析は非常に一般的だと思っていたでしょうが、この種のことを行うソフトウェアをブログ全体で見つけることはできませんでした。これを行うためのソフトウェアはありますか?


3
面白い。疑わしいときは、Pythonがあなたを後押しします。
James T Snell

ええ...でも、自分でこれを転がす必要がないことを本当に望んでいます。
ブライアンバウマン2011

これを行うものがあります...友人が分析したウィキペディアを覚えています...明日彼に確認します
Keltari

回答:


3

お探しのソフトウェアには、「コンテンツ分析」「タグクラウド」、「メタタグなどの多くのタイトルがあり、「テキスト分析」や「テキストマイニング」など多くのタイトルがあります。

これらの目的のために、無料と商用の両方の非常に多くのソフトウェアツールがあります。

私はそのようなツールについての個人的な経験はありませんが、開始するには、無料および商用の両方の数十のそのようなツールをリストするテキスト分析ツールから始めるのが良いでしょう。

別のそのようなリストは、テキスト分析、テキストマイニング、および情報検索ソフトウェアです。


最初のリストでフィルターをかけましたが、無料のオプションには言語分析以上のものはありません。2つ目のリストをまだ確認していません-私は自分でリストを作成する可能性があります。
ブライアンボーマン

2

RapidminerまたはWekaを見てください。

クライアントのブログとして見ると、おそらくデータベースにアクセスできます。すべての記事を平文としてダウンロードし、上記のプログラムのいずれかを使用して、自然言語処理の質問(1、2、3、および5)に対処します。

コンテキストを使用して単語の意味を自動的に決定する必要があるため、使用回数を自動化することは困難です。


ユーザーではなく、すべての用途をカウントします。しかし、提案をありがとう。
ブライアンバウマン2011

誤解した、mybad。それでも、RapidminerまたはWekaで自然言語処理をチェックアウトする必要があります。つまり、データセットが巨大でない限り、両方ともそれをメモリに
収めよ

2

最もコンテンツ分析ソフトウェアの1つは、Provalis Researchによって設計されたWordStatです。

WordStatは、QDAマイナーまたはSimStatのテキスト分析モジュールです。WordStatは、ディクショナリアプローチと多くのアルゴリズムの探索またはさまざまなテキストマイニング手法を使用して、コンテンツ分析手法を組み合わせます。WordStatは、既存の分類辞書を新しいテキストコーパスに適用できます。また、新しい分類辞書の開発と検証にも使用できます。手動コーディングと組み合わせて使用​​すると、このモジュールはコーディングルールのより体系的な適用を支援し、個人のサブグループ間の単語の使用法の違いを明らかにし、KWIC(キーワードインコンテキスト)テーブルを使用して既存のコーディングの改訂を支援できます。WordStatは、自由記述式の質問への回答、インタビュー、タイトル、ジャーナル記事、公開スピーチ、電子通信などのテキスト情報を研究するために特別に設計されています。

http://provalisresearch.com/products/content-analysis-software/



0

これらの質問のいくつかは、ブログでGoogle検索を使用してすばやく独自の方法で回答できます(独自のドメインがある場合に最も簡単です)。


0

Zemantaは分析を行い、タグやリンクを提案できます。これもワードプレスのプラグインです。

唯一の問題:現在のところ、各投稿を手動で開いて選択し、保存する必要があります。

ただし、ワードプレス用の自動タグプラグインは多数あります。プラグインファインダーを検索して、いくつか試してみてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.