AならAだけをマークしても得点できるのは最低スコア
「TOEICはマークシート方式だから,AならAだけをマークすれば,4択なら全体の4分の1は得点できる」 という話を聞いたことがある。これは推測効果 (guessing effect) と呼ばれるもので,たとえば4選択肢のマークシート方式テストが 100 問あった場合には,平均的には,25 問が正解となるという考えに基づいている。これを TOEIC に当てはめれば,最高点 990 点の4分の1として,約 250 点が取れるはずである。ただし,このような考え方は TOEIC に関しては通用しない。
検 証
たとえば,次の Form 3BIC の例を見ていただきたい。これは TOEIC 実施の初期のころに,実際に使用されたテスト・フォームの一つである。ここでは推測効果が現れるかどうかを見るために,Listening と Reading 各セクションの問題数100 問のうち,その4分の1に当たる 25 問までの正解に対するスコア換算方法を示してある。(換算方法はテスト・フォームによって異なる。)
TOEIC は Listening に 100 問, Reading に 100 問あり,それぞれ5~495 が配点されているので,平均すれば1問当たり5点ということになる。そうだとすると,素点(正解数)が 25 の場合には5×25=125 となるはずである。したがって,Total はその倍の 250 となるはずである。ところが表にあるように,Total はわずか 90 にしかならない。これはどういうことであろうか。
(Lは Listening,Rは Reading,Tは Total,T-素点は「5×素点」を示す。)
このスコア換算表から分かる重要なことは,Lについては,素点が 15 以下の場合はすべて最低点であり,Rについては,素点が 21 以下の場合はすべて最低点であるということである。ここで言う最低点とは具体的には5のことを意味するが,この場合の5というのは統計処理上の便宜的な数字にすぎず,実際には0と同じ意味を持つ。つまり,Lは 15 問正解であっても0点,Rは実に 21 問正解であっても0点であることを示している。こうなると推測効果はほとんど現れないことになる。つまり,TOEIC は素点をそのまま使わずに,換算点を使うことによって,推測効果が起こらないように仕組んであると言える。
TOEIC は Listening に 100 問, Reading に 100 問あり,それぞれ5~495 が配点されているので,平均すれば1問当たり5点ということになる。そうだとすると,素点(正解数)が 25 の場合には5×25=125 となるはずである。したがって,Total はその倍の 250 となるはずである。ところが表にあるように,Total はわずか 90 にしかならない。これはどういうことであろうか。
(Lは Listening,Rは Reading,Tは Total,T-素点は「5×素点」を示す。)
素点(正解数) |
L |
R |
T |
(T-素点) |
25 |
65 |
25 |
90 |
250 |
24 |
60 |
20 |
80 |
240 |
23 |
50 |
15 |
65 |
230 |
22 |
45 |
10 |
55 |
220 |
21 |
40 |
5 |
45 |
210 |
20 |
35 |
5 |
40 |
200 |
19 |
25 |
5 |
30 |
190 |
18 |
20 |
5 |
25 |
180 |
17 |
15 |
5 |
20 |
170 |
16 |
10 |
5 |
15 |
160 |
15 |
5 |
5 |
10 |
150 |
0 |
5 |
5 |
10 |
10 |
このスコア換算表から分かる重要なことは,Lについては,素点が 15 以下の場合はすべて最低点であり,Rについては,素点が 21 以下の場合はすべて最低点であるということである。ここで言う最低点とは具体的には5のことを意味するが,この場合の5というのは統計処理上の便宜的な数字にすぎず,実際には0と同じ意味を持つ。つまり,Lは 15 問正解であっても0点,Rは実に 21 問正解であっても0点であることを示している。こうなると推測効果はほとんど現れないことになる。つまり,TOEIC は素点をそのまま使わずに,換算点を使うことによって,推測効果が起こらないように仕組んであると言える。
地道に英語力をつけるのがいちばん
でたらめに解答したとして,また,もし素点(正解数)が幸運にも 25 になったとしても,Tは全体の4分の1に相当する 250 点になるどころか,換算されるとわずか 90 点にしかならない。TOEIC は最高点が 990 であるので,90 というのは全体のわずか9%程度にしかすぎない。これは,AならAだけを無差別に解答しても最低のスコアしか取れないことを示している。安易な得点方法を考えることなく,平凡ながら,やはり地道に英語の実力をつけることが TOEIC スコアを上げるための最善の方法である。
スコアではなく,正答率が英語能力を示す
「TOEIC スコアがどのような英語能力を示すのか知りたい」と思う人は,受験者のほとんどであろう。また,そう思うのも当然である。しかし,少し考えてみると,スコアは TOEIC テストの正答率を示したものなので,この正答率が英語能力を示していることに気がつく。つまり,「TOEIC 問題を何パーセントできたらどのレベルの英語能力を示しているのか」という質問に転換することができる。ただし,この場合には一つの前提が必要である。
TOEICは 「英語を運用できる能力」 を測定する
TOEIC は,下は英語学習者から,上は英語のネイティブ・スピーカーに至るまで幅広い英語能力を評価測定することができる。上のネイティブ・スピーカーについては問題がないが,下の英語学習者はある程度限定される。なぜならば,ネイティブ・スピーカーにしろ,英語学習者にしろ,TOEIC の受験対象者は「英語を運用できる能力」という範囲に限定されるからである。したがって,英語を初めて習う中学生は,まったく TOEIC の対象とはならない。まだ学習レベルだからである。同じ理由で,高校生もかなり上位の英語力の持ち主でないと対象にはならない。大学生はどうかと言うと,これも一般的に言えば,果たしてすべての大学生が英語運用能力を持っているかどうかと問われると,躊躇せざるを得ない。おそらく運用能力のある大学生は数が限られているであろう。しかし,大学生であれば,有資格者もある程度の数は望めるであろう。ということは,ネイティブ・スピーカーから大学生までというのが,だいたい TOEIC 受験の対象者である。
正解率とスコアの関係
前回にも紹介した TOEIC の初期のテスト・フォーム Form 3BIC を利用して,どの正答率(スコア)が TOEIC スコアに連動しているか,つまりどの英語能力を示しているのかを見てみよう。
この表から分かることは,TOEIC の 200 問すべてに正解だった場合は 965 点であり,10 問正解だった場合には 10 点となることである。このことからも分かるように,TOEIC の理論上の最高点は 990 点であるが,これはいつも最高点が 990 点であることを示しているのではない。Form 3BIC の場合には,全問正解であっても 990 点ではなく 965 点が最高点となる。同時に,LとRがそれぞれ 10 問正解であっても,スコアは最低点の 10 点である。
素数(正解数) |
L |
R |
T |
100 |
495 |
470 |
965 |
90 |
475 |
420 |
895 |
80 |
410 |
360 |
770 |
70 |
345 |
300 |
645 |
60 |
285 |
240 |
525 |
50 |
220 |
180 |
400 |
40 |
160 |
115 |
275 |
30 |
95 |
55 |
150 |
20 |
35 |
5 |
40 |
10 |
5 |
5 |
10 |
0 |
5 |
5 |
10 |
この表から分かることは,TOEIC の 200 問すべてに正解だった場合は 965 点であり,10 問正解だった場合には 10 点となることである。このことからも分かるように,TOEIC の理論上の最高点は 990 点であるが,これはいつも最高点が 990 点であることを示しているのではない。Form 3BIC の場合には,全問正解であっても 990 点ではなく 965 点が最高点となる。同時に,LとRがそれぞれ 10 問正解であっても,スコアは最低点の 10 点である。
英語運用能力の調べ方
英語運用能力を知るためには,違った観点からのアプローチも可能である。それは「TOEIC 問題を何パーセントできたら,どの英語能力があると判断できるか」という質問である。
表の素点を見ていただきたい。たまたま各セクションの全問が 100 問なので,素点はそのまま正答率に等しくなる。問題が適正であれば,正答率 100%およびその付近はネイティブ・スピーカー・レベルを示すことは間違いない。同様に,正答率ゼロは英語運用能力ゼロを示す。問題なのは,両者の中間である。正答率80%ならだいたい英語が理解できているはずだと判断した場合には,表により 770 点以上が「実用レベル」と考えられる。正答率 90%なら完璧だと判断した場合は,895 点以上が「完成レベル」ということになる。低いスコアでは,正答率50%以下ではまだ実用レベルに達していないと判断した場合には,表から 400 点は「実用レベル以下,つまり学習レベル」ということになる。このように,英語の理解度をパーセンテージで表現して各自が判断すれば,TOEIC を利用した自分なりの評価システムを作ることができる。一度試されてみてはいかが?
表の素点を見ていただきたい。たまたま各セクションの全問が 100 問なので,素点はそのまま正答率に等しくなる。問題が適正であれば,正答率 100%およびその付近はネイティブ・スピーカー・レベルを示すことは間違いない。同様に,正答率ゼロは英語運用能力ゼロを示す。問題なのは,両者の中間である。正答率80%ならだいたい英語が理解できているはずだと判断した場合には,表により 770 点以上が「実用レベル」と考えられる。正答率 90%なら完璧だと判断した場合は,895 点以上が「完成レベル」ということになる。低いスコアでは,正答率50%以下ではまだ実用レベルに達していないと判断した場合には,表から 400 点は「実用レベル以下,つまり学習レベル」ということになる。このように,英語の理解度をパーセンテージで表現して各自が判断すれば,TOEIC を利用した自分なりの評価システムを作ることができる。一度試されてみてはいかが?
問題数が多すぎるのではないか
TOEIC には Listening と Speaking の2つのセクションがあり,それぞれのセクションの問題数は 100 問である。したがって,計 200 問ということになる。なぜこんなに問題数が多いのだろうか。受験者の負担を減らすために,もう少し問題数を減らすことはできないのだろうか。特にそれほど英語運用能力の高くない受験者の場合は,問題数が多くなると,それだけで圧倒されてしまう。もっと少なくなれば,心理的プレッシャーも低くなり,それだけ受験者もリラックスして普段の実力が出やすくなるので,英語運用能力がより正確に測定できるのではないだろうか。
より多くのデータで測定したほうがより正確になる
一般的に言って,英語運用能力は listening,speaking,reading,writing の4技能に分けられる。このうち TOEIC で直接測定しているのは listening と reading の2つだけである。ただし,listening は speaking と,reading は writing と互いに密接に関係しており,両者の相関係数はともに 0.83 という高い数字を示していることは TOEIC 実施以前の検証でも証明されている。つまり,listening スコアから speaking 能力を,reading スコアから writing 能力をだいたい予測できるので,TOEIC で4技能を含めた全体的な英語運用能力を測定できることが証明されている。
このことを前提として TOEIC の問題数について考えてみよう。TOEIC では Listening と Speaking の2つのセクションを設け,この2つをそれぞれ別個に測定し,それを総合した Total スコアが最終的に英語運用能力を示すと判断している。この考えに従えば,Listening と Speaking はそれぞれ性質が異なるので,独立した測定基準を持たなければならない。これが Listening と Speaking の2つのセクションがそれぞれ互いに独立して 100 問の問題数を持っている理由である。では次に,100 問という問題数がはたして適正なのかどうかということについて考えてみよう。
言うまでもなく,テストはその結果が正確で信頼性が高くなければならない。たとえば,5分間のインタビューテストより 30 分のインタビューテストのほうがテスト結果は正確であり,信頼性も高い。また,reading 能力を測定する場合には,一つの英文 passage より 10 の英文 passage でテストしたほうがテスト結果は正確であり,信頼性も高いことは明白である。このことから結論できることは,「テスト問題数は多いほうが正確である」という事実である。しかし,無制限に問題数を増やすというのは現実的ではない。
このことを前提として TOEIC の問題数について考えてみよう。TOEIC では Listening と Speaking の2つのセクションを設け,この2つをそれぞれ別個に測定し,それを総合した Total スコアが最終的に英語運用能力を示すと判断している。この考えに従えば,Listening と Speaking はそれぞれ性質が異なるので,独立した測定基準を持たなければならない。これが Listening と Speaking の2つのセクションがそれぞれ互いに独立して 100 問の問題数を持っている理由である。では次に,100 問という問題数がはたして適正なのかどうかということについて考えてみよう。
言うまでもなく,テストはその結果が正確で信頼性が高くなければならない。たとえば,5分間のインタビューテストより 30 分のインタビューテストのほうがテスト結果は正確であり,信頼性も高い。また,reading 能力を測定する場合には,一つの英文 passage より 10 の英文 passage でテストしたほうがテスト結果は正確であり,信頼性も高いことは明白である。このことから結論できることは,「テスト問題数は多いほうが正確である」という事実である。しかし,無制限に問題数を増やすというのは現実的ではない。
問題は最低 75 問は必要
統計的な調査によると,信頼性とテスト問題数との平均的な関係は,たとえば50 問の場合には信頼係数は 0.7 とされている。そして,これが 75 問に増えると,信頼係数は 0.78 とわずかながら上昇する。しかし,これ以上いくら問題数を増やしても信頼係数はほとんど変化しない。信頼係数 0.78 で実質上の頭打ちになる。そうであるとすれば,信頼性の高いテストを作るためには少なくとも問題数は 75 問にしなければならないことが分かる。しかし,これは平均的な信頼性であり,もし 75 問の問題の中に相当数の不適切な問題が含まれていたとなると,その信頼係数は著しく低下することになる。一般的に,信頼係数が 0.6 以下になると,そのテストは信頼できないとされている。したがって,信頼できるテストであるためには,75 問ぎりぎりではなく,それ以上の問題数を出題しなければならない。そうしておけば,たとえ不測の事態が起こっても,不適切な問題を削除することによって,信頼係数は損なわれないで済むことになる。
問題数が少なくて済む方法
このような判断に基づいて決定されたのが TOEIC の問題数 100 問である。できれば問題数はなるべく少なくすることによって,受験者の心理的負担を少なくしたい。しかし,問題数をあまり少なくすると,テストの生命である信頼性に重大な影響を及ぼす。痛し痒しである。
しかし,最近の研究により,この問題は解決されつつある。それは項目分析の結果,過去のテストの中から各英語能力レベルに対応した良問を数多く蓄積し,それぞれの英語能力レベルに合った問題をコンピューターで選択して与えようという発想である。その一部はすでに実用化されている。こうなれば,英語能力の高い受験者は自分の英語能力に合った高いレベルの問題だけを解答すればよいことになる。同様に,英語能力の低い受験者は難しすぎる問題が出題されることもなく,自分の英語能力に合った低いレベルの問題だけを解答すればよい。その結果,受験者の解答する問題数も少なくなり,テスト時間も短縮化される。まだいろいろ解決しなければならない問題は抱えているにしても,より効率のよいテストが行われる時代が来つつあることだけは確かである。
しかし,最近の研究により,この問題は解決されつつある。それは項目分析の結果,過去のテストの中から各英語能力レベルに対応した良問を数多く蓄積し,それぞれの英語能力レベルに合った問題をコンピューターで選択して与えようという発想である。その一部はすでに実用化されている。こうなれば,英語能力の高い受験者は自分の英語能力に合った高いレベルの問題だけを解答すればよいことになる。同様に,英語能力の低い受験者は難しすぎる問題が出題されることもなく,自分の英語能力に合った低いレベルの問題だけを解答すればよい。その結果,受験者の解答する問題数も少なくなり,テスト時間も短縮化される。まだいろいろ解決しなければならない問題は抱えているにしても,より効率のよいテストが行われる時代が来つつあることだけは確かである。
スコアをそのまま英語運用能力と判断してはならない
すべての試験には測定誤差がある
同一の受験者が何度も何度も同じ TOEIC を受けると,まったく同じスコアをとるということはない。ある場合は高く,ある場合は低くなるというように,いろいろな要因によって,受験のたびにスコアが異なる。スコアに変動があるのはきわめて自然な現象である。このような測定値の変動のことを測定誤差という。
TOEIC スコアの測定誤差は ±25 と発表されている。この測定誤差の考え方を利用すると,いろいろ重要なことに気がつく。たとえば,ある受験者の Total スコアが 500 だとすると,測定誤差を考慮に入れると, TOEIC スコアの 500 は 475(500-25)から 525(500+25)のスコア範囲内にあることを示している。短期間に何べんも TOEIC を受験すると,±25 のスコア範囲内に収まるわけである。この範囲のことを信頼区間と言い,475≦信頼区間≦525 という式で表すことができる。そして,475 および 525 のことを信頼限界という。
このことは何を示しているかというと,英語運用能力は 500 なら 500 といった狭い1点のスコアで判断してはならないということである。そうではなく,信頼限界の範囲内,つまり 475 から 525 の信頼区間にあるスコアはすべて同一の英語運用能力を示していると判断しなければならない。スコアではなく,「スコア幅」で判断しなければならないのである。
TOEIC スコアの測定誤差は ±25 と発表されている。この測定誤差の考え方を利用すると,いろいろ重要なことに気がつく。たとえば,ある受験者の Total スコアが 500 だとすると,測定誤差を考慮に入れると, TOEIC スコアの 500 は 475(500-25)から 525(500+25)のスコア範囲内にあることを示している。短期間に何べんも TOEIC を受験すると,±25 のスコア範囲内に収まるわけである。この範囲のことを信頼区間と言い,475≦信頼区間≦525 という式で表すことができる。そして,475 および 525 のことを信頼限界という。
このことは何を示しているかというと,英語運用能力は 500 なら 500 といった狭い1点のスコアで判断してはならないということである。そうではなく,信頼限界の範囲内,つまり 475 から 525 の信頼区間にあるスコアはすべて同一の英語運用能力を示していると判断しなければならない。スコアではなく,「スコア幅」で判断しなければならないのである。
頻繁に受験することにはあまり意味がない
受験者の側からすれば,毎回のように TOEIC を受験しても,そのスコア差が ±25 以内にとどまっているようであれば,スコアの変動に一喜一憂する必要はないということでもある。それと同時に,逆の言い方をすれば,毎回のように TOEIC を受験しても信頼区間内にとどまっているようであれば,それほど頻繁に受験すること自体意味がないと理解すべきである。特に,短期間内の複数受験はスコア変動が少ないことが予想されるので,まったく受験の意味がない。 TOEICを受験するタイミングについては,ムダのないようくれぐれも注意しなければならない。
測定誤差の範囲内なら英語運用能力は同じ
スコア幅で考えるという発想により,2つの現象を説明することができる。第1の現象は,すでに述べたように,同一個人に起こった場合である。たとえば1回目の TOEIC 受験で 520 を取り,2か月後の2回目の受験で 480 とスコアが下がった場合でも,これは英語運用能力に差はないことを示している。つまり,スコアは下がっても,英語運用能力は下がっているわけではないことを銘記すべきである。第2の現象は,2人の異なった受験者の場合である。たとえば受験者Aが 480 であり,受験者Bが 445 であった場合には,ともに ±25 の信頼区間内にあるので,両者の英語運用能力は同じレベルにあると判断すべきである。よくあるように,480 のほうが英語運用能力は上であり,445 のほうがこれより下であると判断するのはまったくの誤りである。
測定誤差の確率
ところで, TOEIC の測定誤差 ±25 についてはもう一つ考えるべきことがある。それは,この測定誤差 ±25 は,統計上 68% の確率で言えるということである。したがって,同じ英語運用能力であっても ±25 の範囲を超える場合もありうる。単純に数字上だけで言えば,±25 は 68% の確率で言えるということなので,それ以外の 32% は外れる可能性があるということを示している。それでは困る,もっと正確に推定できないかと不満に思う人もいるかもしれない。そのような場合には,68% 以上に確率を高めなければならない。たとえば 95% の確率に高めようとすると,約 ±50 の測定誤差を想定する必要がある。前に述べた 500 の例で言うと,500-50≦信頼区間≦500+50(450≦信頼区間≦550)ということになる。500 を中心として,前後 50 のスコア幅を考えなければならない。全体で言えば 100 の幅である。
これを具体的に現実に当てはめてみると,400 と 500,650 と 750 を同一英語運用能力と判断することである。しかし,これでは常識的に考えると,両者のスコア差が大きすぎると感じるであろう。そうだとすれば,そこまでの正確さを求めないで,現実的な処理の仕方をすることが考えられる。たとえば TOEIC 500 の人物Aと TOEIC 580 の人物B,2人の中から1人を選ばなければならないときには,英語運用能力に最重点を置く場合にはAを選び,その他の能力を含めた総合能力に重点を置く場合にはBを選ぶこともあり得るという考え方である。
いずれにしても,TOEIC によって英語運用能力を判断する場合には,1点を示すスコアで判断するのではなく,少なくとも ±25 のスコア幅,場合によってはそれ以上のスコア幅で判断するという態度が基本的に必要である。
これを具体的に現実に当てはめてみると,400 と 500,650 と 750 を同一英語運用能力と判断することである。しかし,これでは常識的に考えると,両者のスコア差が大きすぎると感じるであろう。そうだとすれば,そこまでの正確さを求めないで,現実的な処理の仕方をすることが考えられる。たとえば TOEIC 500 の人物Aと TOEIC 580 の人物B,2人の中から1人を選ばなければならないときには,英語運用能力に最重点を置く場合にはAを選び,その他の能力を含めた総合能力に重点を置く場合にはBを選ぶこともあり得るという考え方である。
いずれにしても,TOEIC によって英語運用能力を判断する場合には,1点を示すスコアで判断するのではなく,少なくとも ±25 のスコア幅,場合によってはそれ以上のスコア幅で判断するという態度が基本的に必要である。
