(理想的には無料のオープンソースの)データマスキングツールを探しています。そのようなものはありますか?
注:この関連する質問は、テストデータを生成するためのツールを扱っていますが、この質問では、実際のデータから始めて、テスト目的で興味深い特別な関係を失うことなくテストで使用するためにマスキングすることに興味があります。生成されたデータは一部のテスト目的には適していますが、実際のデータでは考えもしなかった問題が発生します。 テストデータの大規模なデータセットを生成するツール
(理想的には無料のオープンソースの)データマスキングツールを探しています。そのようなものはありますか?
注:この関連する質問は、テストデータを生成するためのツールを扱っていますが、この質問では、実際のデータから始めて、テスト目的で興味深い特別な関係を失うことなくテストで使用するためにマスキングすることに興味があります。生成されたデータは一部のテスト目的には適していますが、実際のデータでは考えもしなかった問題が発生します。 テストデータの大規模なデータセットを生成するツール
回答:
このための一般的なツールがある場合、私は非常に驚かされます-機密データとは何かをどのように「知る」でしょうか?たとえば、すべてのデータを調べて、クレジットカード番号、電話番号、郵便番号、電子メールアドレス、その他機密とみなされるデータのすべての可能な形式を認識する必要があります。また、スキーマについて賢くする必要があります-たとえば、すべての顧客の電子メールアドレスを "nobody@company.com"に書き換える場合、またはデータベース、アプリケーション、その他のツールの一部で顧客の電子メールアドレス(またはSSNまたは何でも)ユニークですか?または、クレジットカード番号をチェックサムするアプリケーションの一部があり、それらをすべて0000 0000 0000 0000にリセットすると壊れますか?または、テレフォニーシステムは、顧客の
基本的に、それを行うためのツールの構成は、アプリケーションの知識を使用して独自のスクリプトを作成するのと同じかそれ以上の作業になります。私のサイトでは、そのようなデータを含む列を追加した人は、すべての列を見つけてバージョン1を書き込むための初期監査の後、スクリプトを更新して同時に匿名化するというポリシーを作成しました。
データベースが小さく、シンプルなデータモデルを持ち、現在のDBAがよく理解している場合、「スクリプトを作成する」ことが答えかもしれません。ただし、要件の変更、機能の追加、開発者/ DBAの出入りに伴い、典型的なデータベースを手動で分析してマスクする労力(およびコスト)は、すぐに手に負えなくなる可能性があります。
私はオープンソースのデータマスキング製品については知りませんが、適度に包括的で比較的使いやすく、コスト的にも驚くほどリーズナブルな市販製品があります。それらの多くには、機密データ(SSN、クレジットカード、電話番号)を識別および分類するためのすぐに使用可能なディスカバリー機能と、マスクされたデータのようにチェックサム、電子メールアドレスのフォーマット、データのグループ化などを維持する機能が含まれています見た目も感じも本物です。
しかし、あなたはそれについて私の(明らかに偏った)言葉をとる必要はありません。GartnerやForresterなどの業界アナリストに、マスキングに関する役立つ公平なレポートを多数入手してもらうよう依頼してください。
これらのコメントが、社内スクリプトの開発と同様に商用製品の調査を検討することを奨励することを願っています。一日の終わりに、最も重要なことは、私たちの多くが日常業務で見る必要のない機密データを保護することです。危険にさらされているデータ。
Camouflage Software Inc.シニアインテグレーションスペシャリストKevin Hillier
そのようなアイテムを見たことはありませんが、私の時間にいくつかの機密データセットを扱ったことがありますが、スクランブルする必要がある主なものは、人々の身元または個人を特定する情報です。これは、データベース内のいくつかの場所にのみ表示されます。
マスキング操作では、データの統計プロパティと関係を保持する必要があり、実際の参照コード(または少なくとも何らかの制御された変換メカニズム)を保持して、実際のデータと一致させる必要があります。
この種のことは、フィールド内の名前の個別のリストを取得し、それをFirstNameXXXX(XXXXは各個別の値に対応するシーケンス番号)のようなものに置き換えることで実現できます。個人情報の盗難に使用される可能性のあるクレジットカード番号や同様の情報は、開発環境では非常に高い可能性がありますが、支払い処理システムをテストする場合は実際の番号のみが必要です。通常、ベンダーから特別なコードが提供されます。ダミーアカウント用。
この種の匿名化手順を作成することは特に難しくありませんが、ビジネスで匿名化する必要があるものを正確に同意する必要があります。必要に応じて、フィールドごとにデータベースを調べます。yes / noを尋ねると、望まない誤検知が発生します。特定のデータを匿名化しないことの理由、またはその結果または規制上の影響について、ビジネス担当者に説明してください。
私は数週間前に同じ仕事をしました。いくつかのソフトウェアシステムを評価しましたが、それらのほとんどは1種類のデータベース(oracleなど)専用であり、使用するのが非常に複雑なことがよくあります。数週間かかりました。
データマスキングスイートのプロフェッショナル版は最も使いやすいものであるため、購入することにしました。また、データをマスクするクールな可能性もあります。たとえば、電子メールアドレスを実際の外観に変更することができます。たとえば、... @ siemens.comからmike.miller@seimsen.comです。
私が覚えている限りでは、約500(?)レコードで無料で試すことができます。
これを行う私の方法:
column to be masked
))私は数年前にこの道を最初に述べ、それ以来、この慣行に基づいたコンサルタントを設立しました。
目的は、データにアクセスする個人が実稼働情報を表示する権限を持っていないテスト環境で使用するテストデータを構築することであると想定しています。
最初に確立することは、どのデータ要素をマスクする必要があるかです。そのためには、Schema Spy(オープンソース)などのデータ検出ツールを使用することをお勧めします。このタスクには関連するjdbcドライバーが必要です。プロセスの非常に有用なステップです。
Talend Open Studioは、最近いくつかのETL機能を実行するために使用した最高のツールの1つであり、値をランダムなorに置き換えることにより、基本的なマスキングの練習を行うこともできます。ルックアップ/置換-一貫性を維持するために-マップコンポーネントを使用します。
しかし、実際のデータマスキングツールを探しているなら、私は適切なオープンソースツールを見つけていません。ツールの予算が非常に適度であれば、Data Maskerをお勧めしますが、これらのプロトコルを介してのみ接続するため、MS SQLまたはOracleを介してインポートおよびエクスポートを行う必要があります。
チェックアウトhttp://www.datakitchen.com.au/2012-08-14-15-04-20/data-masking/data-masker-toolsetを データマスキングに関する情報については、データは方法論、データの発見とテストデータをマスキング管理。http://www.dataobfuscation.com.auにも役立つブログがあります。
InformaticaのMarketには、Informatica ILM(TDM)と呼ばれるツールがあります。これは、PowerCenterをETLのバックトーンとして使用し、さまざまなマスキングオプションを使用してデータをマスクします。ただし、データのマスク方法を理解できるデータアナリストまたはSMEが必要です。ツール自体はどのフィールドをマスクするべきかという情報を提供しませんが、名前、ID列、番号、クレジットカード、SSN番号、口座番号などの機密データフィールドを識別する内部アルゴリズムまたは手順またはプロセスがあります。
私が最も気に入っているのは、汎用性(ほとんどのデータマスキング機能)、速度(内部のデータ移動のためのCoSortエンジン)、および人間工学(単純な4GLジョブ)の点でIRI FieldShield(https://www.iri.com/products/fieldshield)です大量のDBおよびファイル接続を備えたEclipse GUIでサポートされています)。価格面では、IBMとInformaticaの約半分ですが、「大きな」データ変換、移行、およびBI用のより大きなデータ統合スイートでも利用できます。したがって、無料ではありませんが、いくつかのオープンソース(IDE、およびOpenSSLとGPGを使用できます)を使用し、スクリプトはWindows、Linux、およびその他のUnixフレーバーで実行されます。