ドキュメントレビューにおいて予測的タグ付け(Predicitive Coding)を利用して、レビューをした場合に、具体的な進行に関する判断との関係で、統計学の用語についての一定の理解が必要になるので、きちんと再度、調べてみました。(とりあえず、教科書をみながらの復習ですので、間違っていたら、お許しください)
ちなみに、予測的タグ付けというのが何かということになりますが、”Predictive Coding for Dummies”という本がrecommindからでていました。それで勉強しました。あと、特許もでています(US7933859 B1)。
まずは、最初に、ドキュメントレビューの対象となるすべてのドキュメントは、統計学的にみるときに、母集団になります。母集団は、英語では、populationといいます。定義としては、「調査する人が関心を持っている測定値すべての集合」ということになります。でもって、universeという表現もあるそうです。ドキュメントのユニバースとかいうと、広大な空間に、いろいろなドキュメントが散らばっている絵が思い浮かびそうです。それが時には、密接につながっていたり、バラバラだったり、おもしろそうです。
実際のレビューの結果というのは、
NO | Responsive | issues0 | Issues1 | Privilege | Hot | Comments |
PEG0001 | 1 | 0 | 1 | 1 | 0 | 1 |
みたいなデータセットとして現れるので、レビューというのは、何万、何十万というドキュメントについて、このようなデータを収集していく作業として考えることができるわけです。
でもって、予測的タグ付けは、なにをするかというと、最初に標本を作るわけです。サンプルといったほうが、理解しやすかったりします。学術的には、標本は、「母集団から選ばれた測定値の部分集合」といわれます(ビジネス統計学23頁)。
実際の作業は、システムのほうで、無作為に標本を作成してくれて、それを実際にタグ付けしていきます。タグ付けというのは、レビューのソフトウエアを利用して、具体的なドキュメントに対して、関連性の有無、ホットか否か、非開示特権があるかどうかなどをレビューの仕様に準拠しながらなす作業のことをいいます。(具体的なワークフローは、次に検討します)
このときに、サンプルを作るときに、用語として出てくるのが、「信頼区間の95%のサンプルセットを作りましょう」というような用語になります。ドキュメントの全体集合(universal set)から、標本空間(sample set)を作っていくということなるだろうとおもいます。
標本空間というのは、「所与の試行に関連する全体集合Sである」と定義されるそうです。
ここで、たとえば、関連性あり(Responsive)のデータを考えた場合に、サンプルにおけるResponsive数は、母集団におけるResponsive数と、どれだけのぶれるのかというのが関心事項になります。サンプルが多ければ、多いほど、母集団の数と一致する可能性は高くなるでしょうし、その一方で、少なくても、結構、近くなりそうな感じもします。
ここで、標本空間からえられた統計量を考えることができます。要は、10万のドキュメントについて、400のサンプルをとって、関連性ありかどうかを調べました、そのうち、32が、関連性ありと判断された、ということが実際の作業になります。
このサンプルのうち、たとえば、関連性ありと判断された割合は、8%ということになります。標本からの関連性ありとされる数値の平均は、0.08ということになりますね。業界的には、ドキュメントのRichnessもしくはPrevalence(医学的には、有病率、罹患率だそうです)といわれます。
これは、統計的にみるとき、このリッチネスは、標本から計算された尺度(基本統計量-推定量 estimator)という用語になるわけです。では、全体ではどうかというと、全体での尺度(統計量)も考えることができます。これは、母数(population parameter)ということになります。
400というのが標本数(n)のうちグループに属する要素の数(x)が32の場合には、このサンプルの標本比率(sample proportion-)は、 0.08ということになりますというような表現になるかとおもいます。この場合に、全体の母集団が、10万ドキュメントだとわかっている場合には、全体で、関連性ありのドキュメントがどのくらいあると考えたらいいでしょうか、という問題になります。
ここで、標本を作成することを、一つの試行と考えれば、その場合の標本における関連性ありのドキュメントの数は、その試行における結果と考えることができます。
たとえば、上の令で、400のサンプルをとって、調べてみたときに、そのサンプルのとり方によって25しか関連性ありが見つからなかった場合もあるでしょうし、50ほど見つかることもあるでしょう。100見つかることはというと、あまりなさそうです。(この場合に、サンプルをどのようにとるか、という問題が出てくるのは、この例から、容易に気がつくかとおもいますが、この点については、また別の機会にふれましょう)。
関連性ありの数(400サンプル中) | 関連性ありの割合 |
25 | 0.0625 |
32 | 0.08 |
50 | 0.125 |
ところで、同じ標本数(ここだと400ですが)を無作為に何回か作成して、関連性ありの数を調べると上のような表を作ることができるわけです。
でもって、実際には、10万の母集団には、8000関連性ありのドュキメントがあった場合(いわゆるリニアレビューをすれば、みんなわかる)とすれば、この何回かの標本(400サンプルの場合)のチャレンジにおける関連性ありのドュキメントは、32 を中心として確率として分布するということがわかりますね。
統計学的には、「特定の母集団からおおきさnの標本を作成するとき、確率変数Xがとりうる値の確率分布」をXの標本分布といいます。
ここで、「サンプルが多ければ、多いほど、母集団の数と一致する可能性は高くなるでしょうし、その一方で、少なくても、結構、近くなりそうな感じもします。」と感想めいたことを書いていましたが、統計学としては、これが中心極限定理といわれています。ビジネス統計学241頁)。
中心極限定理(The Central Limit Theorem)
中心がμ、表現偏差がある有限の値σという母集団から標本を作成するとき、標本平均Xの標本分布は、標本数nw 大きくなるにつれて、平均μ、標準偏差の正規分布に近づく
だそうです。
上の例で、400のサンプルセットをとって調査した場合に、32の関連性ありという結果が得られたことになった場合には、分布の標準偏差がわかれば、どのくらいの確率で、母集団に、どのくらいの関連性ありの文書があるのかということを語ることができます。
ここで、信頼区間という用語がでてきます。
信頼区間(confidence interval)とは、未知の母数をその範囲内に含んでいると考えられる数値である。区間には、その区間が実際に対象となる母数を含んでいることに対してどの程度信頼できるか(確信がもてるか)を示す値が同時に示される
となります。ある程度のサンプルセットを作ると、たとえば、95%の信頼度で、母集団の関連性ありのドキュメントの総数は、[7760,8240]の区間内にあると確信している、という様な表現ができるようになるわけですね。[7760,8240]の区間内という様な表現をしましたが、これが、マージンエラーという表現でいわれます。