Rachunek prawdopodobieństwa i statystyka ↓↓↓    Wykład    Home

Zadania. Rozwiązania kierujemy na adres: a@adamwalanus.pl; temat maila: zajęcia.

Wiedza minimalna

1. Co robi funkcja RAND? Jak można podobną napisać. Jak za jej pomocą modelujemy rzut monetą?

2. Co to jest rozkład normalny? Dlaczego jest ważny. Jak wygląda jego funkcja gęstości? Jakie ma parametry? Jak brzmi reguła 3 sigm? Jak modelujemy zmienną losową normalną za pomocą funkcji NORMALNY.SKUMULOWANY.ODWROTNA? Ale żeby miała dowolne μ i σ.

3. Co opisuje dwumianowy rozkład prawdopodobieństwa? Jakie ma parametry?

4. Co to jest średnia? A co odchylenie standardowe? Dlaczego nie ma sensu liczenie tych estymatorów dla następujących danych?
12.3, 10.1, 9.4, 13.0, 156.2, 178.3, 11.2, 160.0, 166.1 i co należy z tym zrobić?
Jakie jest odchylenie standardowe średniej obliczonej z n liczb?

5. Dlaczego w takim, poprawnym zapisie: 139.8 ± 2.3 cm, jest właśnie tyle cyfr? Jak należy podać wynik, jeżeli funkcja ŚREDNIA dała wartość 325731.3752, a OdchStnd/pierwiastek(n) zwróciło 463.4903?

6. Jeżeli w zapisie x = 139.8 ± 2.3 liczba 2.3 jest sigmą, to jakie jest prawdopodobieństwo, że x mieści się w przedziale od 135.2 do 144.4? Jak nazywa się taki przedział?

7. Powiedziano nam, że x=135 cm, a my z pomiarów mamy wynik x = 139.8 ± 2.3 cm. Jakie mamy p-value? I w związku z tym, czy potwierdzamy otrzymaną informację?

8. Test t - do czego służy? Czy jest sens testować te dwie grupy liczb?
(12.3, 10.1, 9.4, 13.0, 11.2) i (156.2, 178.3, 160.0, 166.1)

9. Co to jest Histogram?

10. Co to jest wykres rozrzutu? Co opisuje współczynnik korelacji?

11. Arkusz kalkulacyjny dodał do wykresu rorzutu linię prostą. Jak ona się nazywa? Jaki jest jej sens. Jaka jest jej dokładność?

Wiedza w obrazkach


Zadania

1

7 IV. Proszę zebrać jakieś dane, najlepiej liczbowe. Najlepiej byłoby samemu coś zmierzyć, wiele razy. Oczywiście można coś znaleźć w internecie. Opisać te dane. Krótko, treściwie. Omówić je, próbować wykonać jakieś analizy, w rodzaju średniej. Wykonać wykresy.

2

14 IV. Dobre i bardzo dobre wyniki realizacji pierwszego zadania, ze zbieraniem danych, których rozmaitość okazała się wielka, zachęcają do pozostania przy realnych danych. Drugim krokiem byłaby sprawa zależności. Potrzebne będą dwie kolumny danych, jakoś powiązanych ze sobą. Czyli pary liczb (właściwie nie muszą to być liczby, mogłyby być kategorie, np. kobieta, mężczyzna). W nadużywanym tu przykładzie dzieci szkolnych mógłby to być wzrost i masa ciała. Sprawa, co od czego zależy jest do dyskusji, nie wynika ona z obliczeń. Powinien wyjść jakiś związek. Jeżeli nie będzie związku, a wydawało by się, że powinien być, to też jest ciekawy wynik. Podstawowym sposobem analizowania dwóch kolumn liczb (tej samej długości) jest wykres rozrzutu. Warto też policzyć współczynnik korelacji, oraz zrobić regresję. Ambitnym zadaniem byłoby zbadanie istotności współczynnika korealacji, jak i parametrów prostej regresji.

2a. Inne zadanie. Dla osób, które wolą konkretne polecenia. Formuła =NORMSINV(RAND()) generuje liczby losowe normalne N(0,1), czyli jakieś takie: 0.63, -1.22, -0.98, 0.18, 0.25, 1.11, -0.77, 2.32. Jakie jest prawdopdobieństwo, że NORMSINV(RAND())>1, a jakie, że >2, a jakie, że >3?

2b. Trudniejsze. W komórkach A1:A100 mamy formułę =NORMSINV(RAND()). Jakie jest prawdopdobieństwo, że ABS(AVERAGE(A1:A100))<0.1?

2c. Jeszcze trudniejsze. Logo firmy StatSoft, producenta programu Statistica, to dwumodalna funkcja gęstości prawdopodobieństwa. Napisz formułę generującą taki rozkład (żeby histogram tak mniej więcej wyglądał). Podpowiedź: =NORMSINV(RAND())+IF(

3

16 IV. Zadanie to również polega na analizowaniu posiadanych danych, a dotyczy testu t. Potrzebujemy dwóch grup, serii danych, niekoniecznie równolicznych ale koniecznie dotyczących tego samego (w jakimś sensie). Mogłyby to być pomiary wzrostu dzieci z Ia i Ib. Należy, na podstawie danych odpowiedzieć na pytanie, czy obie klasy są tak samo wysokie? Do tego służy test t Studenta. Funkcja T.TEST ma cztery parametry, dwa pierwsze łatwe, dwa kolejne trudne. Rzecz jest omówiona w zacytowanym temacie. Tu dodatkowy przykład. Jedna z osób dysponuje danymi o temperaturach miesięcznych w kilku latach. Powiedzmy, że pytamy czy temperatury w 2019 były wyższe od tych w 2018? Tu trzeba użyć testu sparowanego, żeby luty z lutym był porównywany, a lipiec z lipcem. Więc =T.TEST(A1:A12,B1:B12,1,1). W większości innych przypadków: =T.TEST(A1:A10,B1:B15,2,3). Ale do zadania należy omówienie tych parametrów nr 3 i 4, dlaczego takie zastosowano. Oczywiście można zobaczyć, co będzie jak damy inne wartości. Dość prosty jest wynik zamiany parametru trzeciego. W przypadku parametru czwartego, 1 używamy tylko, gdy mamy pary, a 2 lub 3 możemy wypróbować i wyjaśnić zaobserwowaną różnicę.

4

20 IV. Wynikiem regresji liniowej są dwa parametry prostej y=ax+b. To są dwie liczby. Jednak mają one niepewność, jak każda tzw. statystyka, np. średnia. Dodając do wykresu linię trendu dostajemy tylko sama kreskę i ewentualnie, na wyraźne życzenie wzór. Oczywiście są sposoby obliczenia niepewności Sa parametru a i podobnie Sb. Na razie zróbmy jednak tak. Nie użyjemy rzeczywistych danych, gdyż mielibyśmy wtedy je jedne i jedną parę liczb a i b. Zrobimy model, który za każdym razem będzie się trochę inaczej losował, to i parametry regresji będą nieco inne i zorientujemy się, o co chodzi z tą niepewnością. Mając rzeczywiste dane, mamy jeden przypadek, a mając model przypadków zrobimy ile mamy cierpliwości. A więc tak. Wpiszmy do komórki A1 liczbę 0.8, możemy ją w A2 podpisać "ro" będzie to założony współczynnik korelacji. W komórkach B1:B30 =NORMSINV(RAND()), wiadomo co. Natomiast w C1 =A$1*B1+(1-A$1^2)^0.5*NORMSINV(RAND()) i przeciągamy w dół. Mamy dwie zmienne, B i C, są one skorelowane. W komórce C3 =CORREL(B1:B30,C1:C30) liczymy współczynnik korelacji, aktualny, i patrzymy, czy jest bliski teoretycznemu ro ρ. Naciskamy klawisz Delete by wymusić przeliczanie arkusza. Miło byłoby zapisać z dziesięć współczynników korelacji. Następnie zmieniamy wartość w A1, na jakąkolwiek z przedziału (-1, 1). Badamy, czy tajemniczy wzór na korelację działa.
Regresja. Wstawiamy wykres rozrzutu, dodajemy do niego linię trendu, z wypisanym równaniem. Do A1 wpisujemy różne korelacje, patrzymy na wykres i równanie.
Zadanie. Wybieramy jakąś wartość ρ (która nam się spodobała) i przeliczamy (Delete na jakiejś pustej komórce) arkusz 10 razy (lub więcej, lepiej więcej) zapisując współczynnik kierunkowy przy x (parametr a). Wykonujemy histogram z zapisanych, licznych a.
Zadanie 4.1. Jakie są niebezpieczeństwa używania zaawansowanych programów statystycznych?
Takie, że dorobią nam do linii regresji jakiś szary, szeroki pasek. Świerzy, młody umysł, stwierdzi: to dla podkreślenia regresji. Gdzie błąd? Przecież myśl wygląda na niezłą. Właśnie zadanie 4 było po to (autor przewidział sytuację), by naprowadzić początkującego analityka danych na inną MYŚL. Udało się? Mieliśmy zobaczyć, że otrzymany w regresji współczynnik kierunkowy "a" niby ma jedną konkretną wartość. NIBY, teraz jest taki, ale przy takim jaki jest rozrzucie danych (które ewidentnie mogłyby być trochę inne) "a" mogło by mieć nieco inną wartość. Podobnie rzędna początkowa b. O tym jest dość dużo tu. Współczynniki a i b mają swoje niepewności, swoje sigmy, czy odchylenia standardowe. Otrzymany w zadaniu histogram nam to pokazuje. Otóż zadanie 4.1 polega na tym, żeby nie tylko zanotować kilka wartości "a", ale pary a i b. A właściwie, żeby narysować kilka(naście) linii regresji. I szary pas gotowy. Kto to już widzi, oczyma duszy swojej, kończy zadanie, kto nie, postępuje jak następuje (albo inaczej). Ustalamy osie wykresu rozrzutu, z pewną rezerwą, żeby wszystkie wykresy były identyczne, poza punktami danych i linią regresji. Żeby się dały nałożyć na siebie. Jak nałożyć na siebie kilka wykresów? Z przeźroczystością. W PhotoShopie? Jak narysować na wykresie, dodać do wykresu rozrzutu, linię prostą mając a i b? Oto jest pytanie? A to podpowiedź: wziąć xmin i xmax i wstawić, otrzymując y-ki... Dwa punkty wystarczą by narysowała się prosta (odcinek, narysowanie prostej, a nawet tylko myśl o całej prostej... Szekspira mało).
Takie rzeczy mamy nie tylko w zaawansowanych programach statystycznych. Tu wykres z The Economist June 6th 2020. Jest tu też skala logarytmiczna, nawet dwie.

5

23 IV. Weźmy tabelę na temat koronawirusa, którą znajdziemy tutaj: Reported Cases and Deaths by Country.
5.1. Pierwsze zadanie, to zaimportowanie tabeli do arkusza.
5.2. Spróbujmy umieścić którąś kolumnę na mapie. W Excelu, albo jakoś inaczej.
5.3. Zróbmy wykres rozrzutu Total Deaths względem Total Cases. Dopasujmy jakąś linię, jeżeli to ma sens.
5.4. Zróbmy jakieś inne wykresy, analizy, wg własnego uznania.

6

Co to jest? To jest rezonator kwarcowy, serce zegara. I co na nim za liczba? I dlaczego taka?

To zadanie przeciętnie należy do statystyki, do elektroniki należy, cyfrowej (przerzutnik D, UCY7493). Lepiej zdefiniowane jest inne zadanie.
6.1. Szukamy jakichkolwiek liczb, które coś znaczą. Co to znaczy coś znaczyć? Na początku mogłyby to być stałe fizyczne, prędkość światła, stała Plancka, masa elektronu, protonu, w jakichkolwiek jednostkach. Masy atomowe pierwiastków (nie za bardzo sie nadają - za mały zakres, od 1 do 300). Liczby ludzi w różnych miastach, krajach (bardzo dobre, wiele rzędów zmienności). Otóż niespodziewanie duża część tych liczb będzie się zaczynała na 1! Trochę mniej na 2, 3, najmniej na 9. DLACZEGO? Gdyby te liczby zapisać dwójkowo, WSZYSTKIE będą się zaczynały na 1, ale nie o to chodzi.

7

Rachunek prawdopodobieństwa. Monty Hall problem. Oślepiają nas reflektory, rozpraszają nas kamerzyści, brawa publiczności. Jest Wielki Finał Gry. Przed nami troje drzwi. Za jednymi z nich samochód, za pozostałymi kozy. Prowadzący każe nam wybrać jedne drzwi. Wybieramy. On wtedy otwiera inne drzwi, za którymi stoi koza, i pyta czy pozostajemy przy naszym wyborze, czy też zamieniamy drzwi na te drugie? Jak postąpić?
Tu jest generator tego zdarzenia z 10 drzwiami. Liczbę drzwi można łatwo zmienić w kodzie.

8

Irysy. Przypatrzmy się słynnym danym, nie nowym, lecz ciągle używanym jako przykład. Spotkamy się z nimi kiedyś przy temacie machine learning. Zawsze możemy poczytać o tych danych, ale TERAZ mamy kogo poprosić o wyjaśnienia.

Co możemy zrobić z tymi danymi, na tym poziomie wiedzy statystycznej. Możemy robić wykresy rozrzutu, oczywiście parami, po dwie z czterech zmiennych. Par z czterech jest (4*4-4)/2=6. Jedna ważna rzecz, jako, że chodzi nam o klasyfikację kwiatków. Na tych wykresach musimy mieć trzy różne kolory (wzory) punktów. Spośród wykresów wybieramy te, które jakoś pozwalają odseparować przynajmniej dwie klasy. Gdyby się dało na wykresie narysować (nawet ręcznie) linię oddzielającą punkty, to takiego wykresu z podziałem można by w przyszłości użyć do zaklasyfikowania nowego kwiatka, który potrafimy pomierzyć, ale nie potrafimy go nazwać. Uwaga do linii separującej. Ona nie może być zbyt szczegółowa. Zawsze da się narysować taką, bardzo pogiętą linię, która oddzieli dokładnie wszystkie setosy od versicolorów, na przykład. Taka linia jednak będzie miała małą moc predykcyjną, ten model jest przeuczony. Przyjdzie nowy kwiatek i bynajmniej się nie podporządkuje. Nie musi to być prosta, to byłoby zbyt łatwe, jakiś łuk można zrobić. Ale nie 10 zawijasów.
Bardziej zaawansowane postępowanie mogło by tak wyglądać. Policzmy średnie dla każdej zmiennej i każdej klasy (4*3 średnich). Następnie, policzmy, dla każdego ze 150 przypadków odległość w 4-wymiarowej przestrzeni. Chodzi o zwykłą odległość Euklidesową: √( (x1-xśr1)2+ (x2-xśr2)2+ (x3-xśr3)2+ (x4-xśr4)2). Uwaga, gdyby nasze 4 zmienne miały różne skale, czyli jedna była 15, 17, 13, a druga 24000, 31000, 18000, to koniecznie trzeba by użyć odchyleń standardowych do standaryzacji, żeby wszystkie zmienne miały podobny wpływ. Tę odległość policzmy 3 razy, w trzech kolumnach, biorąc jako średnie, średnie stosa, virginic i versicolor. Następnie zobaczmy na łącznym wykresie linowym tych trzech odległości, czy w ogóle właściwe klasy mają te odległości mniejsze. Test studenta możemy zastosować. Korzystamy tu z ułożenia danych wg klasy. Gdyby to zadziałało, to mamy metodę klasyfikowania nowego kwiatka. Liczymy trzy odległości (w trzech klasach) i wybieramy najmniejszą.
Skąd wziąć nowy kwiatek? I to jeszcze taki, który będzie przez jakiegoś ogrodnika poprawnie oznaczony. Robi się tak. Idzie się do lasu ... Nie. Kwiatka nie mamy. Robi się tak. Wycina sie kwiatki z arkusza (kartonu?), powiedzmy po 10 z każdej klasy. Należało by te 10 wylosować, ale na początek możemy wyciąć i wkleić gdzieś obok po 10 ostatnich. Mamy 30 irysów o znanej kategorii. Stosujemy do nich naszą metodę oznaczania i patrzymy w jakim procencie przypadków SIĘ ZGADZA. Tylko uwaga! Jeżeli chcemy zachować poczucie przyzwoitości, to nasza metoda klasyfikowania nowego kwiatka nie może zależeć od tych, na których będziemy ją testować. Innymi słowy, owe 12 średnich musimy policzyć z obciętych danych.

9

Ostatnio, do treści wykładu został dodany rozdział o wnioskowaniu Bayesowskim. To jest właściwie raczej trudne zagadnienie, choć bez trudnych obliczeń. Ważna tam idea wiedzy a priori i a posteriori, przed i po pomiarze lub obserwacji, jest do pojęcia. Otóż zadanie polega na znalezieniu przykładów. Bo tam, na końcu jest jeden dość głupawy, z zupą grzybową. Chodziło by o mądrzejsze, albo przynajmniej śmieszniejsze. Mogły by też być obliczeniowe jakieś.

10

Nie ma równości w społeczeństwie. Jedni są na głównej, drudzy na podporządkowanej. Ci pierwsi nie szanują tych drugich, nie wpuszczą. Przynajmniej tak jest w tym prostym modelu. W modelach zawsze mamy uproszczenia. Bajkowy król kazał zrobić mapę swojego królestwa w skali 1:1. Nie była użyteczna. Wszyscy jadą tak samo szybko - to może najśmieszniejsze uproszczenie. Kod modelu jest dostępny, można to zmienić. Nie ma przyspieszania ani hamowania, są tylko dwie prędkości: 1 pixel na krok czasowy i stoi.
Korki zapisują się. Tzn. zapisuje się (razem z czasem) każda zmiana długości korka. Po zamrożeniu ruchu Stopem, można ten zapis skopiować i ANALIZOWAĆ. Jak widać, interfejs programiku pozwala zmieniać natężenie ruchu, które jednak jest takie samo na obu drogach (uproszczenie dość łatwe do uogólnienia). Istota zadania polega na zbadaniu korków (co to znaczy? może np. ile było korków dłuższych niż 5 w jakimś czasie), przy różnych, średnich odległościach między samochodami. Przy dużej odległości, jazda powinna być niemal bezkorkowa. Przy małej odległości między samochodami wytworzy sie korek, który będzie tylko przyrastał. Odległości między samochodami modelowane są wg wykładniczego rozkładu prawdopodobieństwa Math.log(Math.random()).

11

Irysy. Z tymi dawnymi, a ciągle, powszechnie używanymi danymi zapoznaliśmy się w zadaniu 8. Zapoznaliśmy się też z R. Czas więc na właściwe narzędzie; sieci neuronowe. Uruchamiamy R, ładujemy bibliotekę: library(nnet), irysy tam już są, można je obejrzeć: iris3 Enter. Drobna operacja, bindowanie: ir=rbind(iris3[,,1],iris3[,,2],iris3[,,3]). Teraz można już, na przykład obejrzeć macierz korelacji: cor(ir).

Sepal L. Sepal W. Petal L. Petal W. Sepal L. 1.0000000 -0.1175698 0.8717538 0.8179411 Sepal W. -0.1175698 1.0000000 -0.4284401 -0.3661259 Petal L. 0.8717538 -0.4284401 1.0000000 0.9628654 Petal W. 0.8179411 -0.3661259 0.9628654 1.0000000

Petal długość i szerokość są tak silnie skorelowane, że zapewne wystarczyłaby jedna z tych wielkości, druga już wiele nie wnosi. Ale należałoby osobno zbadać trzy macierze korelacji, dla każdego gatunku. Sieć neuronowa nie interesuje się macierzą korelacji (a przecież powinna!), podobnie jak darwinowska ewolucja nie ma na celu piękna ani dobra.
Potrzebna jest kolejna operacja techniczna, dołączenie do danych informacji o gatunkach, w taki sposób, jak trzeba:
gatunek=class.ind( c(rep("s",50), rep("c",50), rep("v",50))) obejrzyjmy to sobie: gatunek
Teraz uczenie sieci neuronowej: irnn=nnet(ir,gatunek,size=2,rang=0.1,maxit=200) i oglądanie jej: summary(irnn)

a 4-2-3 network with 19 weights b->h1 i1->h1 i2->h1 i3->h1 i4->h1 -5.55 -99.25 -16.05 -177.03 -81.57 b->h2 i1->h2 i2->h2 i3->h2 i4->h2 -373.74 -150.69 -136.17 274.82 208.41 b->o1 h1->o1 h2->o1 -0.02 -27.76 -3.74 b->o2 h1->o2 h2->o2 0.06 200.44 -219.74 b->o3 h1->o3 h2->o3 -49.77 -173.66 121.07

Mamy 4 wejścia (inputs, 2 długości + 2 szerokości), 3 wyjścia (outputs, trzy gatunki kodowane: 100, 010, 001), a w środku sieci 2 neurony ukryte (hidden). Są jeszcze pewne przesunięcia (bias).
Zadanie polega na użyciu otrzymanej sieci neuronowej do odczytaniu gatunku na podstawie czterech zmierzonych wielkości. Na przykład: SepalL.=5, SepalW=3, PetalL=5 i PetalW=2; predict(irnn,c(5,3,5,2)). Wynik 0.023 0 1 oznacza, że mamy trzeci gatunek. Ambitne zadanie polega na sprawdzeniu wszystkich 150 przypadków, jak wyjdą, jaki będzie % zgodności. Mniej ambitne zadanie polega na ręcznym sprawdzeniu kilku przypadków z danych. Inne ambitne zadanie polega na wymyśleniu takich zestawów liczb (patrząc na wykresy otrzymane w zadaniu 8 albo na te, autorstwa DP), żeby otrzymać zupełnie jednoznaczne wskazanie gatunku albo zupełnie niejednoznaczne (żeby sieć nie wiedziała, co).

12

Igła na podłodze (Buffon's needle problem). Podłoga to paski o szerokości 1 (metr, centymetr?). Igła ma też długość 1. Podobno prawdopodobieństwo, że po upadnięciu na podłogę będzie przecinała granicę paska wynosi 2/π. Trzeba to sprawdzić. Metodą Monte Carlo. Tu skończyło się ambitne zadanie, do roboty, nie czytamy dalej. Teraz podpowiedź jak wykonać ten eksperyment. W A1 losujemy kąt =2*pi()*RAND(). W B1 i C1 losujemy, gdzie upadnie wierzchołek igły (x, y): =rand(). Drugi koniec liczymy w D1 i E1: =B1+sin(A1) i =C1+COS(A1). W F1 sprawdzamy, czy oba końce igły są po różnych stronach lini x=0 lub x=1: =if(OR(B1*D1<0, (B1-1)*(D1-1)<0),1,0). Że C i E są niepotrzebne? Jakoś nie. Przeciągamy i liczymy prawdopodobieństwo. Ewentualnie za pomocą rozkładu dwumianowego robimy porządny test statystyczny, czy się zgadza.

13

Spacer. Większość osób ma jakieś urządzenie potrafiące rejestrować współrzędne geograficzne miejsca, jakiś GPS tracking. Zróbmy tak. Idźmy na spacer, najlepiej prosto, ale niekoniecznie. Starajmy się iść ze stałą prędkością. To będzie przedmiotem zadania. Czy potrafimy? Ustawmy urządzenie na możliwie gęsty (częsty) odczyt, żeby mieć dużo danych. Jeżeli mamy licznik prędkości w rowerze, bazujący na kole, nie na GPS, to jedźmy na rowerze. Tylko, czy on będzie miał w ogóle jakiś zapis i możliwość eksportu? Zapis chwilowych prędkości wystarczył by. Możemy też jechać (iść) drogą, która ma słupki kilometrowe (100-metrowe) i patrzeć na zegarek z sekundnikiem i zapamiętywać czas (jeżeli idziemy, to zapisywać). Można by też chodzić po stadionie, po setce, tam i z powrotem. Właściwie, to po jakimkolwiek stałym odcinku chodzić. Najlepiej w kółko, wokół placu i zapisywać moment przechodzenia przez kreskę narysowaną kredą (jak już nie mamy żadnego smartfonu z GPS, to kredę musimy mieć). Nie musimy znać drogi, chodzi o zmienność szybkości. Oczywiście możemy biegać, ale wtedy trudniej zapisywać.
13.1. Zebrane dane wklejmy do arkusza kalkulacyjnego. Trzy kolumny - dwie współrzędne geograficzne i czas. Jeżeli nie mamy urządzenia, poprośmy kogoś o plik, albo o użyczenie urządzenia na chwilę. Ostatecznie, takie dane powinny się wygooglować.
13.2. Przekształcamy dwie pary współrzędnych (dwa punkty na mapie) na odległość między nimi, w metrach. Mamy teraz szereg n-1 odległości. Policzmy też odcinki czasu Δt (być może wyjdą identyczne). Mając te dane, policzmy chwilowe prędkości. Wykres prędkości może być ciekawy, skomentujmy go.
13.3. Zróbmy test t dla porównania prędkości pierwszej połowy spaceru z drugą. Ewentualnie również, na przykład, pierwszej ćwiartki spaceru z ostatnią.

14

W drugiej turze pewnych wyborów startuje, jak to w drugiej turze, dwóch kandydatów, kandydat A i kandydat B. Ogólnie wiadomo, że między kandydatami jest równowaga. Pytamy 1000 losowo wybranych osób, na kogo będą głosowały. W jakich granicach musi zawierać się liczba popierających A, żebyśmy mogli pozostać przy wstępnej ocenie, że obaj mają w wyborach takie same szanse. Przyjmijmy, że za niepokojący uznamy wynik, którego prawdopodobieństwo jest mniejsze od 0.05. Podpowiedź: potrzebujemy rozkładu dwumianowego (skumulowanego).

15

Liczba π ma, po przecinku cyfr ∞ wiele. W tym pliku tekstowym jest podobno 10 mln cyfr.
141592653589793238462643383279502884197169399375105820974944592307816406286208998628034825...
Tak twierdzą tu, ale plik ma tylko 5.4MB, a jako plik tekstowy nie jest skompresowany (oczywiście cyfrę dałoby się upchać w połowie bajtu Kto wymyśli optymalny sposób zapisu ciągu losowych cyfr? Bo przecież pół bajtu pozwala zapisać aż 16 wartości, a nam potrzeba tylko 10. (Skompresowany zapis π wygląda tak: π.) Może po trzy cyfry, bo 1000 niewiele różni się od 1024 - niewielka strata. Dziesięć bitów na trzy cyfry - to jest to!)). Tak więc pierwsze zadanie (15.1): ile cyfr jest w pliku?
15.2. Bierzemy dużo cyfr, niekoniecznie wszystkie, zależy to od posiadanego sprzętu, i liczymy ile jest zer, jedynek, ... dziewiątek.
15.3. Robimy test Χ2 (Chi, nie X) sprawdzający, czy mamy tu rozkład równomierny. Niech n=liczba cyfr zbadanych, n1=liczba jedynek itd. Wtedy
Χ2=Σ(ni-0.1*n)2/(0.1*n)
Ponieważ tzw. liczba stopni swobody wynosi tu 9 (o jeden mniej niż liczba cyfr, bo n jest ustalone, nie losowe), to Χ2 powinno wyjść ok. 9. Oczywiście dobrze byłoby policzyć p-value.
15.4. Jeżeli test Χ2 dał wynik pozytywny, że liczba cyfr jest losowa, z rozkładem równomiernym (inaczej niż w zadaniu 6.1), to, to jeszcze nie dowód, że π jest takie całkiem losowe. Oczywiście całkiem NIE jest losowe. Zobaczmy jeszcze, czy odstępy między zerami (jedynkami, dwójkami...) są losowe. Losowe, tzn. jakie? Takie jak między samochodami w tym, znanym już modelu korków. Tak więc liczymy ile cyfr mieści się między pierwszym i drugim zerem, drugim i trzecim itd.
141592653589793238462643383279502884197169399375105820974944592307816406286208998628034825... Rozkład powinien być wykładniczy (k razy niezero i raz (w końcu) zero):
pk=1/10*(9/10)k
Jeżeli robilibyśmy histogram albo test Χ2, musimy pamiętać, żeby zsumować wszystkie otrzymane odstępy, których jest już mało (np. powyżej 15, 20, zależy od n). Każdy słupek histogramu, albo składnik w Χ2 musi mieć, co najmniej z 10 elementów. Sumowanie pk nie wymaga sumowania do ∞, wystarczy odjąć wcześniejsze pk od 1.

16

To jest zadanie z informatyki, obliczeniowe. Trzecie działanie - mnożenie. Za pomocą Sita Eratostenesa
Sub Eratos()
 n = 1000
 For i = 1 To n
  Arkusz1.Cells(i, 1) = i
 Next i
 For i = 2 To n
  j = i + i
  Do While j < n
   Arkusz1.Cells(j, 1) = ""
   j = j + i
  Loop
 Next i
End Sub

albo stąd, albo skądkolwiek, one są wszędzie, bierzemy liczby pierwsze. Następnie mnożymy je kolejno: 2*3*5*7*11*... ile się da. Bazując na zwykłych liczbach podwójnej precyzji, daleko nie zajdziemy. Nie mniej jednak, zobaczymy kilka ładnych iloczynów. Chodzi oczywiście o dokładne obliczenie, całkowitoliczbowe. Wygrał, kto policzy najdalej. Po wytłumaczeniu algorytmu, nagroda rzeczowa (nie koza).

Ze względu na brak odpowiedzi, brak wyniku pomnożenia przez siebie, co najmniej 20 liczb pierwszych. Albo jakichkolwiek liczb całkowitych, których suma cyfr przekracza 16 (kiedyś kalkulator Windows nie miał z tym problemu). Umieszczony w Kursie został programik. Działa on na zasadzie mnożenia pisemnego, w słupkach (najlepiej to jednak wygląda w arkuszu kalkulacyjnym). Użycie go do ręcznego wymnożenia tych liczb pierwszych nie jest warte zachodu, ale przetestowania czy działa i dla jak dużych liczb, owszem. Zachodzi jednak obawa, że to zadanie jest trudniejsze od poprzedniego. Sens miałoby połączenie tego programiku (Js) z Sitem.

17

Tu jest zręcznościówka Button. Produkuje ona zapis momentów kliknięcia uciekającego przycisku. Po odjęciu ti - ti-1, otrzymujemy ciąg podobnych liczb, świetnie nadających się do przypomnienia sobie podstaw statystyki. Poza policzeniem średniej, odchylenia standardowego i odch.std. średniej, zobaczmy, czy jest tu skośność, bo powinna być (dodatnia czy ujemna? dlaczego taka?). Sprawdzić warto, czy nie mamy wartości odstających (outliers), bo mogą być, jak wszędzie, ale tu szczególnie. Chwila nieuwagi, a czas leci. Do ambitniejszych zadań należy testowanie zgodności z rozkładem normalnym. Oczywiście zaczynamy od histogramu.

Poza testem χ2 możemy wykonać ciekawy koncepcyjnie, a całkiem prosty test Kołmogorowa-Smirnowa. Rysuje się dwie dystrybuanty, empiryczną i teoretyczną. Brzmi groźnie, ale takie nie jest. Zacznijmy od teoretycznej. Teoretyczny rozkład, to rozkład normalny, ale z jakimi parametrami? Otóż takimi: μ=średnia, a σ=odchylenie standardowe. Proste. Jako zmienną niezależną do wykresu możemy wykorzystać nasze dane. Tylko trzeba je posortować, rosnąco. Zmienna zależna, to dystrybuanta, czyli rozkład normalny z opcją SKUMULOWANY. Mamy S-kształtny, gładki wykres teoretyczny.

Teraz zrobimy, nie taki gładki wykres empiryczny (doświadczalny). Zmienną niezależną już mamy. Zmienną zależną, czyli dystrybuantę empiryczną robimy tak. W pierwszej komórce zero, w następnych dodajemy 1/n (n-liczba danych), tak, że na końcu dochodzimy do 1 (niemal 1, drobiazg). Otrzymaną kolumnę dodajemy do wykresu. Obie linie powinny się niemal pokryć. Szukamy największego odstępstwa, w kierunku pionowym. Oczywiście możemy różnice policzyć w arkuszu i znaleźć największą, co do bezwzględnej wartości. Ta największa różnica, to właśnie jest Dn - statystyka Kołmogorowa-Smirnowa. Nie powinna ona być zbyt duża. Krzywe nie powinny się za bardzo różnić. Wartości krytyczne testu mamy np. tu. Zakładając poziom istotności α=0.05, dla różnych n mamy: 10-0.41, 20-0.29, 30-0.24, 50-0.19, a powyżej używamy wzoru 1.36/√n.


Po wykonaniu zadania przez pierwszą osobę (MB) okazuje się, że jest tu skośność. Znacząca, ale test K-S jednak dał wynik zgodny, choć blisko granicy. Jeżeli jednak wiemy, że dane wykazują asymetrię, nie możemy ich dopasowywać do rozkładu normalnego. Trzeba wziąć inny rozkład, albo... Albo przekształcić dane. Najprostsze, stosowne tu przekształcenie to y=log(x). Jednak nie klikamy aż tak szybko, nie zbliżamy się do 0 sekund, nie da się. Dlatego można spróbować y=log(x-a), gdzie a dobieramy tak, żeby SKOŚNOŚĆ wyszła zero (blisko zera). Jasne, że a<xmin. W zasadzie może lepiej było by minimalizować D zamiast skośności? Choć trochę to pachnie oszustwem, minimalizować D, a potem patrzeć, czy nie jest za duże. Jednak, jeżeli naszym celem jest mieć dane jak najbardziej zbliżone do normalności, to minimalizujemy D.

18

Poniższy wykres ilustruje proces dydaktyczny, którego istotnym elementem jest czas. Mózg ludzki, to nie pamięć komputera, działa inaczej, wymaga czasu (komputer też, ale innego i inaczej). Na osi poziomej jest to czas, marzec (od 25), kwiecień i maj, może nawet czerwiec, ale raczej nie.
Oś pozioma to trudniejsza sprawa. Gdyby się upierać przy jakiejś prostej mierze, takiej jak czas, to mogła by to być liczba rozwiązanych zadań. Ale zadania mają różną wartość, a ich rozwiązania też. Na osi poziomej jest wiedza (wg oceny zaliczającego). Zadanie polega na sporządzeniu wykresu zawierającego odcinek od (x, 0) do (1, y). Gdzie zakres osi x jest, dla uproszczenia od 0 do 1. Odciętą x zadajemy, a y obliczamy wg zasady, że pole pod odcinkiem wynosi 1. Wtedy mogła by to być funkcja gęstości prawdopodobieństwa, ale jaka byłaby jej interpretacja?
Rozwiązanie wg DO.