コンピューターサイエンスプロジェクトを行う必要のある400人の学生(大規模な大学の学生)がいて、彼らは(学生のグループではなく)一人で作業する必要があると仮定します。プロジェクトの例としては、「Fortranでの高速フーリエ変換アルゴリズムの実装」が挙げられます(これはセクシーに聞こえませんが、質問が簡単になります)。私は修正者であり、「本当に独立して書くにはあまりにも類似している」実装を提案している学生のグループがあるかどうかを確認するルーチンを送信したいと思います。
これは、クラスターの教師なし検索です。問題は、使用するクラスタリングアルゴリズムではなく、使用する属性に関するものだと思います。最初に行うのは、文字ごとのヒストグラムです。理想的には、詐欺師はそれより賢いので、最終的には文字のランダムな順列を選び、文字のヒストグラム(順列を含む)の適切な一致が存在するかどうかを確認します。また、それらはコードの構造を探求せず、文字の周辺分布のみを探索します...どのような解決策がありますか?その問題専用の既存のソフトウェアまたはパッケージはありますか?(実際、私の昔、コンピュータサイエンスの教師は、そのようなツールがあったと主張していましたが、今では、非常にシンプルなものがあったと思います)
私は、ソフトウェア開発の弁護士もそのような問題を抱えていると思います(1000人の学生ではなく、2つの大きなコードがあるため、事態が難しくなります)。