\input{kapittel} \kapittel{11}{Projeksjon} \label{ch:projeksjon} \pgfplotsset{compat=1.3} \usetikzlibrary{shapes.geometric} En projeksjon er en lineærtransformasjon $P$ som tilfredsstiller \[ P\V x=P^2\V x. \] for alle $\V x$. Denne ligningen sier at intet nytt skjer om du benytter lineærtransformasjonen for andre gang, og man kan tenke at $ P\V x$ er skyggen $\V x$ kaster dersom man lyser på $\V x$ med en lommelykt. Vi skal begrense oss til å studere ortogonale projeksjoner. Dette betyr at lommelykten står slik at $\V x$ og $P\V x$ danner en rettvinklet trekant. \section*{Ortogonal projeksjon i $\R^2$} Vi husker skalarproduktet, eller prikkproduktet, fra gymnaset. Du har lært to måter å beregne indreproduktet, også kjent som prikkproduktet, nemlig \[ \V{v}\cdot \V{w} = \|\V v\| \|\V w\| \cos \theta, \] der $\|\V v\|=\sqrt{v_1^2+v_2^2}$ er lengden til $\v$ og $\|\w\|$ er lengden til $\w$ og $\theta$ er vinkelen mellom $\V{v}$ og $\V{w}$, eller \[ \V{v}\cdot \V{w} = v_1 w_1+v_2w_2. \] Vi kan bruke skalarproduktet til å projisere vektorer ortogonalt på hverandre. Det sentrale spørsmålet er: hvordan kan vi skrive vektoren~$P_{\V v}( \V w)$ i figuren under? \begin{center} \begin{tikzpicture}[scale=.42] \draw[-latex,thick] (0,0) -- (7,1); \draw[-latex,thick] (0,0) -- (3,6); \draw[-latex, thick] (0,0) -- (27/50*7,27/50*1); \draw[-latex,thick] (27/50*7,27/50*1) -- (3,6); \draw[-] (27/50*7-1/7,27/50*1+1-1/77) -- (27/50*7+1-1/7,27/50*1+8/7-1/77); \draw[-] (27/50*7+1,27/50*1+1/7) -- (27/50*7+1-1/7,27/50*1+8/7-1/77); \node[anchor=east] at (9,1.2) {\footnotesize $\V{v}$}; \node[anchor=south] at (3.5,7) {\footnotesize $\V{w}$}; \node[anchor=east] at (3,-.5) {\footnotesize $P_{\V v}( \V w)$}; \node[anchor=west] at (4.0,3) {\footnotesize $\V w-P_{\V v}( \V w)$}; \end{tikzpicture} \\ {\small \textit{Hva er projeksjon?}} \end{center} % % \begin{center} %\begin{tikzpicture}[scale=.42] %\draw[-latex,thick] (0,0) -- (7,1); %\draw[-latex,thick] (0,0) -- (3,6); %\draw[-, thick] (0,0) -- (27/50*7,27/50*1); %%\draw[-, thick, red] (0,0) -- (27/50*7,27/50*1); %\draw[-,thick] (27/50*7,27/50*1) -- (3,6); %%\draw[-,thick, blue] (27/50*7,27/50*1) -- (3,6); %\draw[-] (27/50*7-1/7,27/50*1+1-1/77) -- (27/50*7+1-1/7,27/50*1+8/7-1/77); %\draw[-] (27/50*7+1,27/50*1+1/7) -- (27/50*7+1-1/7,27/50*1+8/7-1/77); %\node[anchor=east] at (9,1.2) {\footnotesize $\V{v}$}; %\node[anchor=south] at (3.5,7) {\footnotesize $\V{w}$}; %\node[anchor=east] at (3,-.5) {\footnotesize $w_{\V{v}}$}; %%\node[anchor=east,red] at (3,-.5) {\footnotesize $w_{\V{v}}$}; %%\node[anchor=east,blue] at (5.5,3) {\footnotesize $w_{\V{v}^{\perp}}$}; %\node[anchor=east] at (2.9,2) {\footnotesize $\theta$}; %\draw (2.5,.4) arc (8:55:3); %%\foreach \x in {-4,-3,-2,-1,1,2,3,4,5,6} %%\draw (\x,5pt) -- (\x,-5pt); %%\foreach \y in {-4,-3,-2,-1,1,2,3,4,5} %%\draw (5pt,\y) -- (-5pt,\y); %%\filldraw (2,3) circle [radius=3pt] node[anchor=west] {$z=2+3i$}; %%\filldraw (2,-3) circle [radius=3pt] node[anchor=west] {$\overline z=2-3i$}; %%\filldraw (4,5) circle [radius=3pt] node[anchor=west] {$w=4+5i$}; %%\filldraw (0,1) circle [radius=3pt] node[anchor=east] {$\V{e}_2$}; %%\filldraw (-1,-2) circle [radius=3pt] node[anchor=east] {$\V{u}$}; %%\filldraw (3,2) circle [radius=3pt] node[anchor=east] {$\V{v}$}; %%\filldraw (1,4) circle [radius=3pt] node[anchor=south] {$A \V{e}_1$}; %%\filldraw (3,-3) circle [radius=3pt] node[anchor=north] {$A \V{e}_2$}; %%\filldraw (-7,2) circle [radius=3pt] node[anchor=east] {$A \V{u}$}; %%\filldraw (9,6) circle [radius=3pt] node[anchor=north] {$A \V{v}$}; %%\draw[->,shorten <=4pt,shorten >=4pt] (1,0) to[bend right=20] (1,4); %%\draw[->,shorten <=4pt,shorten >=4pt] (0,1) to[bend right=30] (3,-3); %%\draw[->,shorten <=4pt,shorten >=4pt] (-1,-2) to[bend right=20] (-7,2); %%\draw[->,shorten <=4pt,shorten >=4pt] (3,2) to[bend left=20] (9,6); %\end{tikzpicture} %\\ %{\small \textit{Hva er projeksjon?}} %\end{center} Vi kan utlede en formel for lengden: \[ \|P_{\V v}( \V w)\|=\|\V w\| \cos \theta=\frac{\|\V v\|}{\|\V v\|} \|\V w\| \cos \theta =\frac{\V v \cdot \V w}{\|\V v\|}, \] %og $\V w$s komponent ortogonalt på $\V v$, altså den blå lengden: %\[ %w_{\V{v}^{\perp}}=\sqrt{\|\V w\|^2-\left(\frac{\V v \cdot \V w}{\|\V v\|}\right)^2}. %\] %Denne lengden kalles $\V v$ sin skalarprojeksjon ortogonalt på $\V w$. slik at \[ P_{\V v}( \V w)=\|P_{\V v}( \V w)\|\frac{\V v}{\|\V v\|}=\frac{\V v \cdot \V w}{\|\V v\|^2}\V v=\frac{\V v \cdot \V w}{\V v \cdot \V v}\V v. \] Denne vektoren kalles gjerne $\V w$ sin komponent i retningen gitt av $\V v$, eller den \emph{ortogonale projeksjonen} av $\V w$ på $\V v$. Fra figuren ovenfor ser vi at komponenten til $\V w$ ortogonalt på $\V v$ er \[ \V w - P_{\V v}( \V w). \] %Disse to vektorene kalles henholdsvis projeksjonen av $\V w$ på $\V v$, og projeksjonen av $\V w$ ortogonalt på $\V v$. %Tenker man på projeksjonene til $\V w$ på $\V v$ og $\V v^{\perp}$ som en lengder, %kalles det skalarprojeksjon, %og tenker man på det som vektorer, kalles det vektorprojeksjon. \begin{ex} Vektoren \[ \V w = \begin{bmatrix} 2 \\ 1 \end{bmatrix} \] sin komponent i retningen gitt av \[ \V v = \begin{bmatrix} 1 \\ 2 \end{bmatrix} \] er: \[ P_{\V v}( \V w)=\frac{\V v \cdot \V w}{\V v\cdot \V v}\V v= \frac{4}{5} \begin{bmatrix} 1 \\ 2 \end{bmatrix} % %\[ %\frac{\V v \cdot \V w}{\|\V v\|}=\frac{2 \cdot 1+1\cdot 2}{\sqrt{2^2+1^2}}=\frac{4}{\sqrt{5}} \] Vi kan også beregne lengden $\V w - P_{\V{v}}(\w)$: \[ \V w - P_{\V v}( \V w)= \begin{bmatrix} 2 \\ 1 \end{bmatrix} - \frac{4}{5} \begin{bmatrix} 1 \\ 2 \end{bmatrix} = \frac{3}{5} \begin{bmatrix} 2 \\ -1 \end{bmatrix} \qedhere \] \end{ex} \section*{Skalarproduktet i~$\R^n$} Skalarproduktet i~$\R^2$ kan med ord beskrives ved at vi ganger legger sammen produktet av komponentene til to vektorer. Dette er en sterk indikasjon på at den naturige generaliseringen til~$\R^n$ er \[ \V v\boldsymbol{\cdot} \V w=v_1w_1+v_2w_2+\dots +v_nw_n, \] som også kan uttrykkes ved matriseproduktet \[ \V v\boldsymbol{\cdot} \V w=\V v \tr \V w. \] Hvordan skal man tenke på dette produktet? Svaret er at intuisjonen din fra~$\R^2$ fungerer helt fint. Husk at lengden til en vektor er gitt som \[ \|\V v\|=\sqrt{v_1^2+v_2^2+\dots+v_n^2}, \] eller ekvivalent \[ \|\V v\|=\sqrt{\V v\boldsymbol{\cdot}\V v}. \] Formelen \[ \V v \boldsymbol{\cdot}\V w=\|\V v\| \|\V w\|\cos \theta \] er fortsatt gyldig. Formelen for vinkelen mellom to vektorer gir spesielt at to vektorer \emph{ortogonale} hvis \[ \V v \boldsymbol{\cdot} \V w=0, \] og \emph{parallelle} hvis \[ \V v \boldsymbol{\cdot}\V w=\pm\|\V v\| \|\V w\| \] -- fordi dette betyr at vinkelen mellom dem er~$0$ eller~$180$ grader; de ligger på samme linje. Og akkurat som i~$\R^2$ blir den \emph{ortogonale projeksjonen} av~$\V w$ på~$\V v$ \[ P_{\V v}( \V w)=\frac{\V v\boldsymbol{ \cdot} \V w}{\V v \boldsymbol{\cdot} \V v}\V v. \] Intuisjonen vår -- som illustrert i figuren fra forrige seksjon -- forteller oss at en vektor~$\V w$ som er parallell med~$\V v$ burde være lik sin egen projeksjon på~$\V v$. Vi kan sjekke at algebraen stemmer overens med intuisjonen: parallellitet betyr at~$\V w$ er et skalarmultiplum av~$\V v$;~$\V w=t\V v$. Sett inn i formelen for å se at \begin{align*} P_{\V v}( \V w)&=\frac{\V v\boldsymbol{ \cdot} \V w}{\V v \boldsymbol{\cdot} \V v}\V v\\ &=\frac{\V v\boldsymbol{ \cdot} t\V v}{\V v \boldsymbol{\cdot} \V v}\V v\\ &=t\frac{\V v\boldsymbol{ \cdot} \V v}{\V v \boldsymbol{\cdot} \V v}\V v\\ &=t\V v\\ &=\V w. \end{align*} På samme måte virker det rimelig at projeksjonen av en vektor~$\V w$, som er otrogonal med~$\V v$, er null-vektoren. Igjen, algebraen er enig: vi antar at~$\V v \boldsymbol{\cdot} \V w=0 $ slik at \begin{align*} P_{\V v}( \V w)&=\frac{\V v\boldsymbol{ \cdot} \V w}{\V v \boldsymbol{\cdot} \V v}\V v\\ &=\frac{0}{\V v \boldsymbol{\cdot} \V v}\V v\\ &=0\cdot \V v\\ &=\V 0. \end{align*} \begin{ex} Vektorene~$\V v=\vvv{1}{1}{1}$ og~$\V w=\vvv{1}{-1}{6}$ er ikke ortogonale fordi \[ \vvv{1}{1}{1}\boldsymbol{\cdot}\vvv{1}{-1}{6}=1\cdot 1+1\cdot (-1)+1\cdot 6=6. \] Den ortogonale projeksjonen av~$\V w$ på $\V v$ er \begin{align*} P_{\V v}( \V w) &=\frac{\vvv{1}{1}{1}\boldsymbol{\cdot}\vvv{1}{-1}{6}}{\vvv{1}{1}{1}\boldsymbol{\cdot}\vvv{1}{1}{1}} \vvv{1}{1}{1}\\ &= \frac{6}{1^2+1^2+1^2}\vvv{1}{1}{1}\\ &= \frac{6}{3}\vvv{1}{1}{1}\\ &= \vvv{2}{2}{2} \end{align*} Vi ser at~$P_{\V v}( \V w)$ og~$\V w$ er parallelle siden~$P_{\V v}( \V w)=2\V w$, og at~$P_{\V v}(\V w)$ og~$\V w-P_{\V v}( \V w)$ er ortogonale: \begin{align*} \vvv{2}{2}{2}\boldsymbol{\cdot}(\vvv{1}{-1}{6}-\vvv{2}{2}{2})&=\vvv{2}{2}{2}\boldsymbol{\cdot}\vvv{-1}{-3}{4}\\ &= 2\cdot(-1)+2\cdot (-3)+2\cdot 4\\ &=0 \end{align*} Det er også verdt å merke seg at vi kan skrive~$\V w$ som en sum av komponenten~$P_{\V v}( \V w)$ parallell med~$\V v$ og komponenten~$\V w-P_{\V v}( \V w)$ ortogonal på~$\V w$: \[ \V w= P_{\V v}( \V w)+(\V w-P_{\V v}( \V w)) \] \end{ex} Fikser en vektor $\V v$ i~$\R^n$. Du kan tenkte på~$P_{\V v}$ som en funksjon fra~$\R^n$ til~$\R^n$ som tar inn en vektor, $\V w$, for å produsere den ortogonale projeksjonen \[ P_{\V v}( \V w)=\frac{\V v\boldsymbol{ \cdot} \V w}{\V v \boldsymbol{\cdot} \V v}\V v. \] Men den er mer enn en vanlig funksjon. Den er av typen vi liker aller best; den er en lineærtransformasjon. \begin{thm} \label{thm:lintrans} Den ortogonale projeksjonen på en vektor~$\V v$, \begin{align*} P_{\V v} :\R^n &\rightarrow \R^n\\ P_{\V v}( \V w)=&\frac{\V v\boldsymbol{ \cdot} \V w}{\V v \boldsymbol{\cdot} \V v}\V v, \end{align*} er en lineærtransformasjon. \end{thm} \begin{proof} Resultatet følger essensielt av at skalarproduktet er lineært i andre faktor. \noindent For å se at skalarproduktet er lineært i andre faktor, må vi vise at \[ \V v \boldsymbol{\cdot } (a\V w+b\V u) =a\V v \boldsymbol{\cdot} \V w+b \V v \boldsymbol{\cdot} \V u. \] Husk at~$\V v\boldsymbol{\cdot} \V w$ er matriseproduktet~$\V v\tr \V w$. Det er med andre ord lineærtransformasjonen som er gitt av $1\times n$-matrisen~$\V v\tr$. Dette gir automatisk at skalarproduktet er lineært (fordi matriseproduktet er distributivt). Du kan alternativt bevise påstanden direkte ved å bruke formelen~$\V v\boldsymbol{\cdot} \V w=v_1w_1+v_2w_2+\dots +v_nw_n$. \noindent Nå er det rett frem å vise at projeksjonen på~$\V v$ er en lineærtransformasjon: \begin{align*} P_{\V v}(a\V w+b\V u)&=\frac{\V v\boldsymbol{ \cdot} (a\V w+b\V u)}{\V v \boldsymbol{\cdot} \V v}\V v \\ &=\frac{a\V v \boldsymbol{\cdot} \V w+b \V v \boldsymbol{\cdot} \V u}{\V v \boldsymbol{\cdot} \V v}\V v && \text{(linearitet)}\\ &=a\frac{\V v \boldsymbol{\cdot} \V w}{\V v \boldsymbol{\cdot} \V v}\V v+b\frac{\V v\boldsymbol{\cdot}\V u}{\V v \boldsymbol{\cdot} \V v}\V v && (\V v\boldsymbol{\cdot}\V v\text{ er et tall})\\ &=aP_{\V v}\V w+bP_{\V v}\V u \end{align*} \end{proof} \begin{ex} La~$\V v=\vvv{1}{1}{1}$ være vektoren fra forrige eksempel. Vi så nettopp at projeksjonen~$P_{\V v}$ er en lineærtransormasjon fra~$\R^3$ til~$\R^3$. Fra teorien om lineærtransformasjoner vet vi at det er mulig å finne en $3\times 3$-matrise $[P_{\V v}]$ -- som kalles standardmatrisen til $P_{\V v}$ -- slik at~$P_{\V v}(\V x)=[P_{\V v}]\V x$. Denne matrisen er alltid gitt som \[ [P_{\V v}]= \begin{bmatrix} P_{\V v} (\V e_1) & P_{\V v}( \V e_2) & P_{\V v}( \V e_3) \end{bmatrix} \] hvor $\V e_i$-ene er standardbasisen til~$\R^3$. Regn ut: \begin{align*} P_{\V v} (\V e_1) &=\frac{\vvv{1}{1}{1}\boldsymbol{\cdot}\vvv{1}{0}{0}}{\vvv{1}{1}{1}\boldsymbol{\cdot}\vvv{1}{1}{1}} \vvv{1}{1}{1}\\ &=\frac{1}{3} \vvv{1}{1}{1}\\ \end{align*} Tilsvarende blir også \[ P_{\V v} (\V e_2)=\frac{1}{3} \vvv{1}{1}{1} \text{ og } P_{\V v} (\V e_3)=\frac{1}{3} \vvv{1}{1}{1}. \] Standardmatrisen er derfor \[ [P_{\V v}]=\frac{1}{3}\begin{bmatrix} 1 & 1 & 1\\ 1 & 1 & 1\\ 1 & 1 & 1 \end{bmatrix}. \] Hvis~$\V w=\vvv{1}{-1}{6}$ også er som i forrige eksempel, sjekker vi at \[ [P_{\V v}]\V w=\frac{1}{3}\begin{bmatrix} 1 & 1 & 1\\ 1 & 1 & 1\\ 1 & 1 & 1 \end{bmatrix} \vvv{1}{-1}{6} =\frac{1}{3}\vvv{6}{6}{6}=\vvv{2}{2}{2} \] stemmer overens med~$P_{\V v}(\V w)=\vvv{2}{2}{2}$. Er~$P_{\V v}$ injektiv? Hva med surjektiv? Vi kan selvfølgelig svare på disse spørsmålene ved å radredusere~$[P_{\V v}]$, men dette kan også forstås geometrisk. Tenk litt på hvorfor et plan som står normalt på linjen utspent av $\V v$, $\Sp \{\v v\}$, er alle vektorene som projiseres ned på skjæringspunktet. Nå skjønner du kanskje at det er mange vektorer -- et helt plan -- som treffer en gitt vektor på~$\Sp\{ \V v\}$. Men dette betyr jo at ulike vektorer sendes til like vektorer; transformasjonen er ikke injektiv. Spesielt er kjernen til~$P_{\V v}$, eller nullrommet til~$[P_{\V v}]$, er planet som står normalt på $\Sp\{\V v\}$ med origo som skjæringspunkt. Bildet til $P_{\V v}$, eller kolonnerommet til $[P_{\V v}]$, er~$\Sp{\V v}$ -- fordi vektorer projiseres ned på denne linjen. \end{ex} Hvis du tenker deg om vil du etterhvert innse -- eller kanskje bli lurt til å innse -- at geometrien til vektorer i~$\R^n$ kommer fra skalarproduktet. Vi har sett at vinkel, projeksjon og lengde kan uttrykkes ved skalarproduktet. Til og med selve koordinatsystemet vi ser for oss er beskrevet av skalarproduktet: Standardbasisen i~$\R^n$ er vektorene $\V e_i$ som har komponent $i$ lik 1, og null ellers. Merk at hvis du skalarmultipliserer en vilkårlig vektor~$\V v=\vvvv{v_1}{v_2}{\vdots}{v_n}$ med~$\V e_i$, så får du enkelt og greit~$v_i$, den $i$-te komponenten til $\V v$. Et eksempel fra~$\R^3$ er \[ \vvv{1}{2}{3}\boldsymbol{\cdot}\vvv{0}{1}{0}=1\cdot 0+2\cdot1+3\cdot0=2. \] Derfor kan vi skrive~$\V v$ som en lineærkombinasjon \[ \V v=v_1\V v_{\V e_1}+v_2\V v_{\V e_2}+\dots+v_n\V v_{\V e_n}. \] Koordinater er altså bare summen av projeksjoner ned på vektorer i standardbasisen. Grunnen til dette er at standardbasisen er et eksempel på en \emph{ortogonal basis}, noe vi skal komme tilbake til senere i kapittelet. Alt av geometri ser ut til å komme fra at~$\R^n$ har skalarmultiplikasjon. Målet med neste seksjon er å generalisere skalarproduktet -- som vi kommer til å kalle et indreprodukt -- for å finne lignende geometri i mer abstrakte vektorrom. \section*{Indreproduktrom} Før matematikk 3 tenkte de fleste av oss på vektorer som piler i~$\R^2$, eller~$\R^3$. Disse pilene kan legges sammen og skaleres på en naturlig måte. I Kapittel~8 så vi hvordan disse ideene kan abstraheres til mer generelle vektorrom; mengder hvor man kan legge sammen og skalere elementer -- som kalles vektorer -- på en slik måte at regnereglene vi er vant med fra~$\R^2$, og~$\R^3$, fortsatt er gyldige. \begin{quote} \emph{Matematikere liker å generalisere.} \end{quote} Hvorfor? Et svar er at det ofte er nyttig å skjønne hvordan ting, som kanskje ser helt forskjellig ut, har like egenskaper. Til nå har vi blant annet sett at polynom, og mer generelt funksjoner, har visse egenskaper til felles med piler i~$\R^2$ -- alle er vektorrom. Vi skal abstrahere ideen om skalarproduktet. For å bedre skjønne hvorfor dette er av interesse, kan det være lurt å undre litt over: \begin{quote} \emph{Hva tilfører skalarproduktet?} \end{quote} Et upresist svar er at det ser ut til å måle hvordan vektorer i~$\R^n$ orienterer seg i forhold til hverandre. Kanskje vi til og med kan komme med følgende vågale utsagn. Skalarproduktet er geometrien til~$\R^n$. Hvis du tenker tilbake på forrige seksjon synes du kanskje ikke dette virker urimelig: Det vi ser for oss kan jo beskrives med skalarproduktet. Alt dette er vel og bra. Men hvordan i alle dager kan man generalisere noe slikt? Det er kanskje litt enklere å tenke på: \begin{quote} \emph{Hvilke egenskaper til skalarproduktet er av geometrisk betydning?} \end{quote} Skalarproduktet i~$\R^n$ er en operasjon som tar inn to vektorer,~$\V v$ og~$\V w$, for å produsere en skalar~$\V v\boldsymbol{\cdot} \V w$. Denne operasjonen er \emph{symmetrisk}:\[ \V v \boldsymbol{\cdot} \V w=\V w \boldsymbol{\cdot} \V v \] Husk at to vektorer i~$\R^n$ er ortogonale hvis~$\V v \boldsymbol{\cdot} \V w=\V 0$. Det er nettopp symmetrien til skalarproduktet som gjør definisjonen veldefinert. For uten symmetrien kunne det tenkes at~$\V v \boldsymbol{\cdot} \V w=0$ og~$\V w \boldsymbol{\cdot} \V v\neq 0$, eller~$\V v \boldsymbol{\cdot} \V w\neq0$ og~$\V w \boldsymbol{\cdot} \V v= 0$. I så fall måtte vi skilt mellom: \begin{quote} Vektoren $\V v$ er ortogonal med $\V w$. \end{quote} \begin{quote} Vektoren $\V w$ er ortogonal med $\V v$. \end{quote} Noe som virker helt absurd. Hvordan kan~$\V v$ være ortogonal med~$\V w$, mens~$\V w$ ikke er ortogonal med~$\V v$? Videre tilfredstiller skalarproduktet en egenskap vi kaller \emph{positivitet}: \[ \V v\boldsymbol{\cdot}\V v\geq 0,\text{ og } \V v\boldsymbol{\cdot}\V v = 0 \text{ kun hvis } \V v=\V 0 \] Kravet~$\V v\boldsymbol{\cdot}\V v\geq 0$ er rett og slett det som lar oss definere lengden \[ \|\V v \|=\sqrt{\V v\boldsymbol{\cdot}\V v} \] siden kvadratroten bare er definert for positive tall. Og det andre kravet betyr at det kun er nullvektoren som har lengde lik null. Positivitet er med andre ord essensielt for at lengde-begrepet skal gi mening. Den siste egenskapen vi skal tenke på er \emph{linearitet}: \[ \V v \boldsymbol{\cdot } (a\V w+b\V u) =a\V v \boldsymbol{\cdot} \V w+b \V v \boldsymbol{\cdot} \V u \] Skalarproduktet også er lineært i første faktor fordi det er symmetrisk. I beviset til Teorem~\ref{thm:lintrans} kommer det frem at nettopp denne egenskapen gjør projeksjon lineær. Rent geometrisk får vi naturlige bilder à la: \begin{center} \begin{tikzpicture}[scale=0.7,baseline=(O)] \coordinate (O) at (0,0); \draw[->] (-1,0) -- (10,0); \draw[->] (0,-1) -- (0,7); \coordinate (u) at (3,4); \coordinate (v) at (5,2); \coordinate (Tu) at (3,0); \coordinate (Tv) at (5,0); \draw[->] (0,0) -- (u) node [anchor=south] {$\u$}; \draw[->] (0,0) -- (v) node [anchor=west] {$\v$}; \draw[dashed] (u) -- (Tu); \draw[dashed] (v) -- (Tv); \draw[dashed] ($ (u) + (v) $) -- ($ (Tu) + (Tv) $); \draw[->] (0,0) -- ($ (u) + (v) $) node[anchor=south] {$\u + \v$}; \draw[->] (0,0) -- (Tu) node[anchor=north] {$P_{\V e_1}\u$}; \draw[->] (0,0) -- (Tv) node[anchor=north] {$P_{\V e_1}\v$}; \draw[->] (0,0) -- ($ (Tu) + (Tv) $) node[anchor=north] {$P_{\V e_1}(\u)+P_{\V e_1}( \v)$}; \end{tikzpicture} \\[8pt] {\small \textit{Å projisere for så å addere, eller å addere for så å projisere, er det samme}} \end{center} \begin{center} \begin{tikzpicture}[scale=0.7,baseline=(O)] \coordinate (O) at (0,0); \draw[->] (-1,0) -- (10,0); \draw[->] (0,-1) -- (0,7); \coordinate (u) at (4,2.5); \coordinate (cu) at (8,5); \coordinate (Tu) at (4,0); \coordinate (Tcu) at (8,0); \draw[->] (0,0) -- (u) node [anchor=south] {$\u$}; \draw[->] (0,0) -- (cu) node [anchor=south] {$c\u$}; \draw[dashed] (u) -- (Tu); \draw[dashed] (cu) -- (Tcu); \draw[->] (0,0) -- (Tu) node[anchor=north] {$P_{\V e_1}\u$}; \draw[->] (0,0) -- (Tcu) node[anchor=north] {$cP_{\V e_1}\u$}; \end{tikzpicture} \\[8pt] {\small \textit{Å projisere for så å skalere, eller å skalere for så å projisere, er det samme}} \end{center} En liten oppsummering på diskusjonen ovenfor: Vi ønsker å definere et produkt som tar inn to vektorer for å produsere en skalar. Dette produktet skal gi en geometri som minner om~$\R^n$. Symmetri, linearitet og positivitet er tre meget viktige egenskaper til skalarproduktet i~$\R^n$. Disse sørger for at ortogonalitet, projeksjon og lengde oppfører seg i henhold til intuisjonen vår. Derfor burde vi i alle fall kreve at generaliseringen skal tilfredstille disse tre. Dette er faktisk matematikerenes beste forslag på hva den riktige generaliseringen av skalarproduktet er. Konvensjonen er å kalle generaliseringen for et \emph{indreprodukt} med notasjon~$\langle \V v,\V w\rangle $ -- indreproduktet mellom~$\V v$ og~$\V w$. \begin{defn} La~$V$ være et reelt vektorrom. Et \emph{indreprodukt} i~$V$ er en operasjon som tar inn to vektorer,~$\V v$ og~$\V w$, for å gi ut et reelt tall~$\langle\V v,\V w\rangle$. Operasjonen tilfredstiller \begin{align*} &\langle\V v,\V w\rangle=\langle\V w,\V v\rangle &&\text{(symmetri)}\\ &\langle\V v ,(a\V w+b\V u) \rangle=a\langle\V v , \V w\rangle+b \langle \V v , \V u\rangle &&\text{(linearitet)}\\ &\langle \V v,\V v\rangle \geq 0,\text{ og } \langle \V v,\V v\rangle = 0 \text{ kun hvis } \V v=\V 0 &&\text{(positivitet)} \end{align*} Vi sier at $V$, sammen med ett valgt indreprodukt, er et \emph{indreproduktrom}. \end{defn} \begin{merkx} Hvis du kombinerer linearitet og symmetri, så får du også at indreproduktet er lineært i første faktor:\[ \langle (a\V w+b\V u),\v \rangle=a\langle\V w, \v \rangle+b \langle \V u,\v \rangle. \] \end{merkx} \begin{ex} Skalarproduktet i~$\R^n$,\[ \langle\V v,\V w\rangle=\V v \boldsymbol{\cdot} \V w, \] er et indreprodukt i~$\R^n$. Til sammen utgjør de et indreproduktrom. Dette eksempelet var tross alt hele motivasjonen for definisjonen ovenfor. \end{ex} En viktig lærdom fra seksjonen om skalarproduktet i~$\R^n$, er at intuisjonen fra~$\R^2$ fungerer helt ypperlig. Tror du dette også er sant for andre indreproduktrom? \begin{quote} \emph{Intuisjonen din fra~$\mathbb{R}^2$ fungerer fortsatt helt ypperlig.} \end{quote} Det være lurt å tenke på~$\v \boldsymbol{\cdot}\w $ i stedet for~$\langle \V v,\V w\rangle $ fremover. \begin{ex} I~$\R^2$ er skalarproduktet med nullvektoren alltid null. Dette er også tilfellet i et generelt indreproduktrom. Et triks er å observere at \begin{align*} 2\langle\V v,\V 0\rangle &=\langle \V v,2\V 0\rangle, && \text{linearitet}\\ &=\langle \V v,\V 0\rangle, && 2\V 0=\V 0 \end{align*} Men da tilfredstiller tallet~$\langle\V v,\V 0\rangle$ likheten \[ 2\langle\V v,\V 0\rangle=\langle \V v,\V 0\rangle. \] Flytte-bytte gir \[ \langle\V v,\V 0\rangle=0. \] \end{ex} \emph{Lengden} er definert til å være \[ \|\V v\|=\sqrt{\langle\v,\v\rangle}. \] \begin{ex} Hvis du deler en ikke-null vektor med lengden sin, så får du en vektor av lengde~1;~$\frac{\v}{\|\v\|}$ har lengde lik 1. Algebraisk verifikasjon: \begin{align*} \|\frac{\v}{\|\v\|}\|&=\sqrt{\langle \frac{\v}{\|\v\|},\frac{\v}{\|\v\|} \rangle}\\ &=\sqrt{{\frac{1}{\|\v\|^2}\langle \v,\v \rangle}}\\ &=\sqrt{{\frac{1}{\|\v\|^2}\|\v\|^2}}\\ &=\sqrt{1}=1 \end{align*} \end{ex} To vektorer er \emph{ortogonale} hvis \[ \langle \v,\w \rangle=\V 0. \] \begin{merk} Positivitet viser at den eneste vektoren som er ortogonal med \emph{alle} vektorer i $V$ er nullvektoren. \end{merk} Basert på disse definisjonene kan vi allerede bevise Pytagoras' teorem. \begin{thm}[Pytagoras] \label{thm:pytagoras} La~$V$ være et indreproduktrom. Dersom vektorene~$\v$ og~$\w$ er ortogonale, er \[ \|\v+\w\|^2=\|\v\|^2+\|\w\|^2. \] \end{thm} \begin{proof} Vi regner litt på venstre side av ligningen. \begin{align*} \|\v+\w\|^2&= \langle\v+\w,\v+\w\rangle\\ &=\langle\v,\v\rangle+\langle\v,\w\rangle\\&+\langle\w,\v\rangle+\langle\w,\w\rangle, && \text{linearitet}\\ &=\langle\v,\v\rangle+\langle\v,\v\rangle, && \text{ortogonalitet}\\ &=\|\v\|^2+\|\w\|^2. \end{align*} \end{proof} \begin{center} \begin{tikzpicture} \draw[->] (0,0) -- (3,1); \draw[->] (3,1) -- (2.5,2.5); \draw (0,0) -- (2.5,2.5); \draw (3,1) -- (2.875,1.375) -- (2.425,1.225) -- (2.55,0.85) -- (3,1); \node[below] at (1.7,0.5) {$\|\v\|$}; \node[right] at (2.75,1.75) {$\|\w\|$}; \node[above] at (0.8,1.4) {$\|\v+\w\|$}; \end{tikzpicture} \\[8pt] {\small \textit{Pytagoras' teorem}} \end{center} Det neste teoremet er en ulikhet som lar oss definere vinkelen mellom vektorer. \begin{thm}[Cauchy--Schwarz] \label{thm:cs} La~$V$ være et indreproduktrom. Alle vektorer~$\v$ og~$\w$ tilfredstiller \[ |\langle \v,\w\rangle|\leq \|\v\|\|\w\|. \] \end{thm} Fra ulikheten følger det at \[ -1\leq \frac{\langle \v,\w\rangle}{ \|\v\|\|\w\|} \leq 1. \] Cosinus ligger også mellom~$-1$ og~$1$. Derfor kan vi definere \emph{vinkelen} mellom~$\v$ og~$\w$ til å være løsningen av \[ \cos \theta= \frac{\langle \v,\w\rangle}{ \|\v\|\|\w\|}. \] Vi har med andre ord fortsatt formelen \[ \langle \v,\w\rangle=\cos \theta \|\v\|\|\w\|. \] Spesielt er to vektorer \emph{parallelle} hvis \[ \langle \v,\w\rangle=\pm \|\v\|\|\w\|, \] eller ekvivalent, $\w =t\v$ for et reelt tall~$t$; de ligger på samme linje. På dette tidspunktet blir du kanskje ikke overrasket over at den \emph{ortogonale projeksjonen} av~$\w$ på~$\v$ er \[ P_{\v}(\w)=\frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\v. \] Bildet er fortsatt det samme som i~$\R^2$: \begin{center} \begin{tikzpicture}[scale=.42] \draw[-latex,thick] (0,0) -- (7,1); \draw[-latex,thick] (0,0) -- (3,6); \draw[-latex, thick] (0,0) -- (27/50*7,27/50*1); \draw[-latex,thick] (27/50*7,27/50*1) -- (3,6); \draw[-] (27/50*7-1/7,27/50*1+1-1/77) -- (27/50*7+1-1/7,27/50*1+8/7-1/77); \draw[-] (27/50*7+1,27/50*1+1/7) -- (27/50*7+1-1/7,27/50*1+8/7-1/77); \node[anchor=east] at (9,1.2) {\footnotesize $\V{v}$}; \node[anchor=south] at (3.5,7) {\footnotesize $\V{w}$}; \node[anchor=east] at (3,-.5) {\footnotesize $P_{\V v}( \V w)$}; \node[anchor=west] at (4.0,3) {\footnotesize $\V w-P_{\V v}( \V w)$}; \end{tikzpicture} \\ {\small \textit{Den ortogonale projeksjonen i et indreproduktrom}} \end{center} Teorem~\ref{thm:lintrans} sier at den ortogonale projeksjonen i~$\R^n$ er en lineærtransformasjon. Hvis du leste beviset, så er du enig i at alt koker ned til at skalarproduktet er lineært. Samme bevis fungerer for generelle indreproduktrom (bare bytt~$\v \boldsymbol{\cdot}\w$ med~$\langle \v,\w\rangle$). \begin{thm} \label{thm:lintrans2} La~$V$ være et indreproduktrom. Den ortogonale projeksjonen på en vektor~$\V v$, \begin{align*} P_{\V v} \colon V &\rightarrow V\\ P_{\V v}( \V w)=&\frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\V v, \end{align*} er en lineærtransformasjon. \end{thm} \begin{thm} \label{ortproj} La~$\v$ og~$\w$ være to vektorer i et indreproduktrom~$V$. Da er~$P_{\v}(\w)$ og~$\w-P_{\v}(\w)$ ortogonale. \end{thm} \begin{proof} Bruk linearitet (og symmetri, for å få linearitet i første faktor): \begin{align*} \:&\langle P_{\v}(\w) ,\w-P_{\v}(\w) \rangle\\ =&\langle \frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\v ,\w-\frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\v \rangle\\ =&\langle \frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\v ,\w\rangle -\langle \frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\v ,\frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\v \rangle\\ =& \frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\langle\v ,\w\rangle -\frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\langle \v,\v \rangle\\ =&\frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\langle\v ,\w\rangle -\frac{\langle \v,\w\rangle}{\langle \v,\v\rangle}\langle \v,\w\rangle\\ &=0 \end{align*} \end{proof} \section*{Indreprodukt mellom funksjoner} Denne seksjonen inneholder et eksempel på et nytt indreprodukt. Vi skal definere et indreprodukt mellom stykkevis kontinuerlige funksjoner. Dette indreproduktet har mange anvendelser, spesielt innen signalbehandling. Du skal lære mer om dette i matematikk 4, stikkordet er \emph{fourieranalyse}: Ideen er å projisere signaler -- les stykkevis kontinuerlige $2\pi$-periodiske funksjoner -- ned på de elementære signalene~$\cos(nx)$ og~$\sin(mx)$ for å plukke ut hvor mye av hver frekvens signalet består av. Det viser seg at fine nok signaler kan rekonstrueres på denne måten. Skalarproduktet i~$\R^n$ er en sum. Det er nærmere bestemt en sum av produktet mellom komponentene til to vektorer. En funksjon fra et intervall~$[a,b]$ til~$\R$ -- en vektor i~$\Cf ([a,b])$ -- kan tenkes på som en 'klassisk vektor', eller pil, med utellbart mange komponenter: En funksjon~$f$, fra~$[a,b]$ til~$\R$, er en regel som gir ut ett tall~$f(x)$ for hver~$x$ i~$[a,b]$, og det er utellbart mange tall i dette intervallet. Vi kunne godt ha skrevet dette som en samling av komponenter \[ (f(x)\text{ hvor } x\text{ ligger i }[a,b]). \] Det er umulig å summere utellbart mange tall; umulig å summere over alle komponentene -- funksjonsverdiene -- til en funksjon. Men i matematikk 1 så vi at det finnes noe som minner om en slik sum, nemlig integralet over~$[a,b]$: Integralet er arealet under grafen, summen av uendelig tynne stolper med tilhørende funksjonsverdi som høyde. Basert på motivasjonen ovenfor forsøker vi å definere indreproduktet mellom~$f$ og~$g$ som \[ \langle f,g\rangle=\frac{1}{b-a}\int\limits_{a}^{b}f(x)g(x)dx. \] Faktoren~$\frac{1}{b-a}$ er ikke nødvendig, men den gir finere formler i praksis. Vi må sjekke at aksiomene for et indreprodukt holder. \begin{thm} Operasjonen \[ \langle f,g\rangle=\frac{1}{b-a}\int\limits_{a}^{b}f(x)g(x)dx. \] er et indreprodukt på~$\Cf ([a,b])$. \end{thm} \begin{proof} Symmetri: \begin{align*} \langle f,g\rangle&=\frac{1}{b-a}\int\limits_{a}^{b}f(x)g(x)dx\\ &=\frac{1}{b-a}\int\limits_{a}^{b}g(x)f(x)dx, && ab=ba\text{ for tall}\\ &= \langle g,f\rangle. \end{align*} \noindent Linearitet: I matematikk 1 lærte du at integralet er lineært, det vil si \[ \int(cg(x)+dh(x))dx=c\int g(x)dx+d\int h(x)dx, \] som gir \begin{align*} \langle f,cg+dh\rangle&=\frac{1}{b-a}\int\limits_{a}^{b}f(x)(cg(x)+dh(x))dx\\ &=\frac{1}{b-a}\int\limits_{a}^{b}(cf(x)g(x)+df(x)h(x))dx\\ &= c\frac{1}{b-a}\int\limits_{a}^{b}f(x)g(x)dx\\ &+d\frac{1}{b-a}\int\limits_{a}^{b}f(x)h(x)dx\\ &=c\langle f,g\rangle+d\langle f,h\rangle. \end{align*} \noindent Positivitet: \[\langle f,f\rangle=\frac{1}{b-a}\int\limits_{a}^{b}f(x)^2dx\] Funksjonen~$f(x)^2$ er alltid større eller lik null. Derfor blir arealet under grafen større eller lik null. Vi kan konkludere med at~$\langle f,f\rangle \geq 0$. Når er~$\langle f,f\rangle=0$? Siden~$f(x)^2$ alltid er positiv, må vi ha at~$f(x)=0$ for alle~$x$, ellers får vi et ikke-null areal. Det er, med andre ord, kun null-funksjonen som tilfredstiller~$\langle f,f\rangle=0$. \end{proof} \begin{merkx} I praksis vil vi også tillate \emph{stykkevis kontinuerlige} funksjoner -- kontinuerlig overalt, bortsett fra et endelig antall punkter -- for vårt indreprodukt. Et teknisk problem gjør det litt vanskelig å formulere dette presist -- men du trenger ikke å bekymre deg for denne typen detaljer. Fra nå av lar vi~$\Cf_s([a,b])$ betegne rommet av alle stykkevis kontinuerlige funksjoner. Den \emph{spesielt interresserte} studenten kan merke seg at integralet av en funksjon som er null overalt, bortsett fra i ett punkt, er null. Det tekniske problemet er altså at ikke bare null-funksjonen gir~$\langle f,f\rangle=0$. Løsningen er å modifisere likhet i~$\Cf_s([a,b])$: to funksjoner~$f$ og~$g$ er like hvis~$f(x)=g(x)$ for alle $x$, bortsett fra et endelig antall punkter; de er så å si like. Faktisk er det mulig med et bedre integralbegrep enn det du lærte i matematikk 1 (Lebesgue integral) som tillater at to funksjoner~$f$ og~$g$ er like i $\Cf_s([a,b])$ hvis~$f(x)=g(x)$ for alle $x$, bortsett fra et tellbart antall punkter. Men det er en historie for en annen dag. \end{merkx} Det er på tide med et eksempel. \begin{ex} \label{eks:xx2} Vi ser på indreproduktet når~$a=0$ og~$b=1$. Er~$x$ og~$x^2$ ortogonale? \begin{align*} \langle x,x^2\rangle &=\frac{1}{1-0}\int\limits_{0}^{1}x\cdot x^2dx =\int\limits_{0}^{1}x^3dx\\ &=[\frac{1}{4}x^4]_{0}^{1} =\frac{1}{4} \end{align*} Nei, de er ikke ortogonale. Hva er lengden til~$x$ og~$x^2$? \begin{align*} \langle x,x\rangle &=\frac{1}{1-0}\int\limits_{0}^{1}x\cdot xdx =\int\limits_{0}^{1}x^2dx\\ &=[\frac{1}{3}x^3]_{0}^{1} =\frac{1}{3} \end{align*} \begin{align*} \langle x^2,x^2\rangle &=\frac{1}{1-0}\int\limits_{0}^{1}x^2\cdot x^2dx =\int\limits_{0}^{1}x^4dx\\ &=[\frac{1}{5}x^5]_{0}^{1} =\frac{1}{5} \end{align*} Lengdene er \[ \|x\|=\frac{1}{\sqrt{3}}\text{ og }\|x^2\|=\frac{1}{\sqrt{5}}. \] Hva er vinkelen mellom dem? \begin{align*} \cos\theta&=\frac{\langle x,x^2\rangle}{\|x\|\|x^2\|}= \frac{\frac{1}{4}}{\frac{1}{\sqrt{3}}\frac{1}{\sqrt{5}}}\\ &= \frac{\sqrt{3}\sqrt{5}}{4}=\frac{\sqrt{15}}{4}. \end{align*} Merk at~$\sqrt{15}\approx 3.87\leq 4$ som stemmer overens med Cauchy--Schwarz. En kalkulator gir~$\theta\approx 14.48$ grader. Vi kan ikke se denne vinkelen i figuren nedenfor, men vi kan forstå at de er nærmere å være parallelle, enn de er å være ortogonale. Hvis de hadde vært parallelle, ville~$\theta$ vært $0$ eller $180$ grader, og hvis de hadde vært ortogonale ville~$\theta$ vært~$90$ grader. Dette gir også et bevis på at~$x$ og~$x^2$ er lineært uavhengige; de er ikke på samme linje/parallelle. La oss tenke litt mer på denne vinkelen. Siden lengden av~$x$ og~$x^2$ er henholdsvis~$\frac{1}{\sqrt{2}}$ og~$\frac{1}{\sqrt{3}}$, og vinkelen mellom dem er~$14.48$ grader, ser de ut til å være nærme hverandre. Avstanden mellom dem er -- som i~$\R^2$ -- lengden til differansen;\[ \|x-x^2\|^2=\int\nolimits_{0}^{1}(x-x^2)^2 dx \] Fra figuren ser dette målet på avstand ut til å være lite: \begin{center} \begin{tikzpicture} \begin{axis}[axis lines=center, xmin=0, ymin=0, xmax = 1.1, ymax = 1.1, ylabel=$y$, xlabel=$x$] \addplot[blue, samples=100, smooth] plot (\x, { \x }); \addplot[red, samples=100, smooth] plot (\x, { \x*\x } ); \end{axis} \end{tikzpicture} \\ {\small \textit{Arealet mellom~$x$ (blå) og~$x^2$ (rød) er lite}} \end{center} Mer presist: \begin{align*} \|x-x^2\|^2&=\int\nolimits_{0}^{1}(x-x^2)^2 dx\\ &=\int\nolimits_{0}^{1}(x^2-2x^3+x^4) dx\\ &=\frac{1}{3}-\frac{2}{4}+\frac{1}{5}\\ &=\frac{1}{30}. \end{align*} Avstanden mellom~$x$ og~$x^2$ er~$\frac{1}{\sqrt{30}}\approx 0.183$, et lite tall. For å oppsummere, grafene i figuren over ser ut til å være nærme hverandre, derfor er vinkelen mellom dem relativt liten. Hva er den ortogonale projeksjonen av~$x^2$ på~$x$? \begin{align*} P_{x}(x^2)&=\frac{\langle x,x^2\rangle}{\langle x,x\rangle }x = \frac{\frac{1}{4}}{\frac{1}{3}}x=\frac{3}{4}x. \end{align*} Vi sjekker at~$P_{x}(x^2)$ og~$x^2-P_{x}(x^2)$ faktisk er ortogonale: \begin{align*} \langle P_{x}(x^2), x^2-P_{x}(x^2) \rangle &=\frac{1}{1-0}\int\limits_{0}^{1}\frac{3}{4}x(x^2-\frac{3}{4}x)dx\\ &=\frac{3}{4}\int\limits_{0}^{1}x^3-\frac{9}{16}\int\limits_{0}^{1}x^2dx\\ &=\frac{3}{4}\frac{1}{4}-\frac{9}{16}\frac{1}{3}\\ &=\frac{3}{16}-\frac{3}{16}\\ &=0 \end{align*} \end{ex} \begin{ex} Hva er vinkelen mellom~$x$ og~$-x$ i~$\Cf_s ([0,1])$? Man skulle kanskje tro at vinkelen er~$90$ grader: \begin{center} \begin{tikzpicture} \begin{axis}[axis lines=center, xmin=0, ymin=-1.1, xmax = 2.2, ymax = 1.1, ylabel=$y$, xlabel=$x$] \addplot[blue, samples=100, smooth] plot (\x, { \x }); \addplot[red, samples=100, smooth] plot (\x, { -\x } ); \end{axis} \end{tikzpicture} \\ {\small \textit{Vinkelen mellom grafene til~$x$ (blå)\\ og~$-x$ (rød) er~$90$ grader}} \end{center} Men husk at vinkelen ikke er en vinkel mellom grafene. Den riktige inuisjonen her er at vinkelen burde være~$180$ grader. Hvorfor? Linjen utspent av~$x$ --~$\Sp \{x\}$ -- består av alle~$ax$ hvor~$a$ er et reelt tall. Spesielt ligger~$-x=(-1)\cdot x$ på linjen. Tenk på en vektor~$\v$ i~$\R^2$, vinkelen mellom~$\v$ og~$-\v$ er~$180$ grader. \begin{align*} \cos\theta &=\frac{\langle x , -x \rangle }{\|x\|\|-x\|}\\ &=\frac{\int\limits_{0}^{1} x\cdot(-x) dx}{\sqrt{\int\limits_{0}^{1} x^2 dx}\sqrt{\int\limits_{0}^{1} (-x)^2 dx}}\\ &=\frac{-\int\limits_{0}^{1} x^2 dx}{\int\limits_{0}^{1} x^2 dx}\\ &= -1 \end{align*} Dette betyr at~$\theta$ er~$180$ grader. \end{ex} \begin{ex} \label{eks:cossin} I dette eksempelet er~$a=-\pi$ og~$b=\pi$. Vi skal regne ut lengden til vektorene~$1$,~$\cos x$ og~$\sin x$, og se at de er parvis ortogonale. \begin{align*} \|1\|^2&=\frac{1}{\pi-(-\pi)}\int\limits_{-\pi}^{\pi}1\cdot 1dx\\ &=\frac{1}{2\pi}[x]_{-\pi}^{\pi}\\ &=\frac{\pi-(-\pi)}{2\pi}\\ &=1 \end{align*} Husk den trigonometriske identiteten\[ \cos(2x)=2\cos^2 x-1. \] \begin{align*} \|\cos x\|^2&=\frac{1}{\pi-(-\pi)}\int\limits_{-\pi}^{\pi}\cos x \cdot \cos x dx\\ &=\frac{1}{2\pi}\int\limits_{-\pi}^{\pi}\cos^2 x dx\\ &=\frac{1}{2\pi}\int\limits_{-\pi}^{\pi}\frac{1+\cos(2 x)}{2} dx\\ &=\frac{1}{2\pi}[\frac{1}{2}x+\frac{1}{4}\sin (2x)]_{-\pi}^{\pi},&&\sin(\pm 2\pi)=0\\ &=\frac{1}{2\pi}(\frac{1}{2}\pi-\frac{1}{2}(-\pi))\\ &=\frac{1}{2} \end{align*} På lignende vis regner vi ut \[ \|\sin x\|^2=\frac{1}{2}. \] Vektorene~$1$ og~$\cos x$ er ortogonale: \begin{align*} \langle 1, \cos x\rangle&=\frac{1}{\pi-(-\pi)} \int\limits_{-\pi}^{\pi}1\cdot \cos x dx\\ &=\frac{1}{2\pi} \int\limits_{-\pi}^{\pi} \cos x dx\\ &=\frac{1}{2\pi}[\sin x]_{-\pi}^{\pi},&&\sin(\pm \pi)=0\\ &=0 \end{align*} Tilsvarende regning gir \[ \langle 1, \sin x\rangle=0. \] Bruk substitusjon for å regne ut det siste integralet: \begin{align*} \langle \cos x, \sin x\rangle&=\frac{1}{\pi-(-\pi)} \int\limits_{-\pi}^{\pi}\cos x\cdot \sin x dx\\ &=\frac{1}{2\pi} \int\limits_{-\pi}^{\pi} \cos x\sin x dx,&&u=\cos x\\ &=-\frac{1}{2\pi}\int \limits_{-1}^{1}udu\\ &=-\frac{1}{2\pi}[\frac{1}{2}u^2]_{-1}^{1}\\ &=-\frac{1}{2\pi}(\frac{1}{2}1^2-\frac{1}{2}(-1)^2)\\ &=0 \end{align*} \end{ex} Du kan bruke lignende triks fra matematikk 1 for å bevise at~$\cos(nx)$ og~$\sin(mx)$, hvor $n,m=2,3,\ldots$, også kan tas med i Eksempel~\ref{eks:cossin}. \begin{thm} \label{thm:cossin} Vektorene~$1$,~$\cos(nx)$ og~$\sin(mx)$, hvor $n,m=1,2,3,\ldots$, er parvis ortogonale i~$\Cf_s([-\pi,\pi])$. \end{thm} \section*{Mer om ortogonalitet} \begin{defnx} En \defterm{ortogonal mengde} er en mengde av ikke-null vekorer $\V u_1$, $\V u_2$, ...,$\V u_n$, slik at \[ \langle \V u_i, \V u_k \rangle= 0 \] for alle vektorer $\V u_i$ og $\V u_k$ i mengden med $i\ne k$. Dersom i tillegg $\|\V u_j \|=1$ for alle vektorene, sier vi at mengden er \defterm{ortonormal}. \end{defnx} Intuisjonen bak det neste teoremet er klar: Vektorer som parvis står 90 grader på hverandre er lineært uavhengig. Du kan f. eks. tenke på standardbasisen i~$\R^3$. \begin{thm} \label{thm:ortmengde} En ortogonal mengde er lineært uavhengig. \end{thm} \begin{proof} La~$\V u_1$, $\V u_2$, ...,$\V u_n$ være en vilkårlig ortogonal mengde i et indreproduktrom. Vi ønsker å vise at ligningen \[ x_1\u_1+x_2\u_2+\dots+x_n\u_n=\V 0 \] kun har triviell løsning -- definisjonen på lineær uavhengighet. Trikset er å anvende indreproduktet med alle $\u_i$-ene på ligningen. Høyre side: \[ \langle\V 0,\u_i\rangle=0 \] Venstre side: \begin{align*} \:&\langle x_1\u_1+x_2\u_2+\dots+x_n\u_n, \u_i\rangle\\ =& x_1\langle\u_1, \u_i\rangle+x_2\langle \u_2, \u_i\rangle+\dots +x_n\langle\u_n, \u_i\rangle, && \text{linearitet}\\ =& x_i\langle\u_i,\u_i\rangle, && \text{ortogonalitet} \end{align*} Til sammen får vi at \[x_i\langle\u_i,\u_i\rangle=0.\] Her kan ikke~$\langle\u_i,\u_i\rangle=0$ fordi alle $\u_i$-ene er ikke nullvektoren (positivitet). Dermed må~$x_i=0$. Vi har kun triviell løsning~$x_i=0$ for alle~$i$. \end{proof} \begin{ex} Standardbasisen~$\V e_1,\V e_2,\ldots,\V e_n$ for~$\R^n$ er en ortonormal mengde. \end{ex} \begin{ex} I forrige seksjon så vi at polynomene~$x$ og~$x^2$ er ikke en ortogonal mengde i~$\Cf_s([0,1])$. \end{ex} \begin{ex} Teorem~\ref{thm:cossin} kan omformuleres: Vektorene~$1$,~$\cos(nx)$ og~$\sin(mx)$, hvor $n,m=1,2,3,\ldots$, er en ortogonal mengde i~$\Cf_s([-\pi,\pi])$. \end{ex} \begin{defnx} Dersom en ortogonal mengde $\V u_1$, $\V u _2$, ...,$\V u_n$ i~$V$ også er en basis, sier vi at mengden er en \defterm{ortogonal basis} for $V$. \end{defnx} Teorem~\ref{thm:ortmengde} sier at vi likså godt kunne byttet ut 'basis' med 'spenner ut' i definisjonen av en ortogonal basis -- en ortogonal mengde er lineært uavhengig, vi trenger kun å sjekke om den spenner ut. \begin{merkx} Hvis indreproduktet er skalarproduktet i~$\R^n$, så er det vanlig å sette opp $\V u_1$, $\V u _2$, ...,$\V u_n$ som kolonner i en matrise $U$. Vi sier da at $U$ er en \defterm{ortogonal matrise}. \end{merkx} %\begin{ex} %Mengden bliff blaff bloff er en ortogonal basis for $\C^3$. %\end{ex} % %\begin{ex} %Mengden bliff blaff bloff er en basis for $\C^3$, men den er ikke ortogonal. %\end{ex} % Hvis vi har en ortogonal basis for et rom, er det veldig lett å finne en vektors komponenter i rommet. La oss si at vi ønsker å finne vektoren $\V v$ sine koordinater i basisen $\V u_1,\V u _2,\ldots,\V u_n$. Koordinatene,~$x_1,x_2,\ldots,x_n$, til $\V v$ i denne basisen er gitt ved ligningen \[ \V v = x_1 \V u_1 + x_2 \V u_2 + ...x_n \V u_n. \] I motivasjonen for indreproduktet så vi at når $\u_i$-ene er standardbasisen til~$\R^n$, så er $x_i$-ene bare komponentene til vektoren~$\v$; projeksjonen ned på hvert element i standardbasisen. Det samme gjelder for en ortonogonal basis. Anvend indreproduktet med~$\V u_i$ for å få ut den $i$-te komponenten: \begin{align*} \langle\V u_i, \V v \rangle &= \langle\V u_i ,x_1 \V u_1 + x_2 \V u_2 + ...x_n \V u_n\rangle\\ &= x_1\langle\u_1, \u_i\rangle+x_2\langle \u_2, \u_i\rangle\\&+\dots +x_n\langle\u_n, \u_i\rangle, && \text{linearitet}\\ &= x_i\langle\u_i,\u_i\rangle, && \text{ortogonalitet} \end{align*} Altså er \[ \langle\V u_i, \V v \rangle = x_i\langle\u_i,\u_i\rangle \] for hver $i$. Fordi $\u_i$ ikke er nullvektoren, er $\langle\u_i,\u_i\rangle > 0$. Altså er løsningen \[ x_i=\frac{\langle\V u_i, \V v \rangle}{\langle\u_i,\u_i\rangle }. \] Når vi husker formulen for projeksjonen på en vektor, så ser vi at \[ x_i \V u_i=\frac{\langle\V u_i, \V v \rangle}{\langle\u_i,\u_i\rangle }\V u_i = P_{\V u_i}(\V v). \] Vi beviste altså: \begin{thm} Koordinatene til~$\v$ i en ortogonal basis~$\V u_1,\V u _2,\ldots,\V u_n$ er \begin{align*} \V v&= P_{\V u_1} (\V v) + P_{\V u_2} (\V v) + ... +P_{\V u_n} (\V v)\\ &= \frac{\langle\V u_1,\V v\rangle}{\langle\V u_1,\V u_1\rangle}\V u_1 + \frac{\langle\V u_2,\V v\rangle}{\langle\V u_2,\V u_2\rangle}\V u_2+...+\frac{\langle\V u_n,\V v\rangle}{\langle\V u_n,\V u_n\rangle}\V u_n \end{align*} \end{thm} Vi kan også projisere en vektor ned i et underrom der den ikke hører hjemme. Projeksjonen minimerer avstanden fra underrommet til vektoren. Det neste teoremet sier at vi må finne en ortogonal basis for å få til situasjonen som er illustrert i bildet nedenfor. \begin{center} \begin{tikzpicture} \tikzstyle{every node}=[trapezium, draw, minimum width=8cm, trapezium left angle=120, trapezium right angle=60] \node[minimum height=2.5cm, trapezium stretches, rotate=10] at (0,0) {}; \draw [->] (-1.5,0) -- (1.5,2.5); \draw [dashed] (1.5,2.5) -- (1.5,0.176*1.5); \draw [thick] (1.2,0.176*1.2) -- (1.2,0.176*1.2+0.3); \draw [thick] (1.2,0.176*1.2+0.3) -- (1.5,0.176*1.5+0.3); \end{tikzpicture} \\[8pt] {\small \textit{Ortogonal projeksjon minimerer avstanden\\ til et underrom}} \end{center} \begin{thm} \label{thm:min} La $\V u_1$, $\V u _2$, ...,$\V u_n$ være en ortogonal basis for~$U$, et underrom av~$V$. Punktet \begin{align*} P_U( \v)&= P_{\V u_1} \V v + P_{\V u_2} \V v + ... +P_{\V u_n} \V v\\ &= \frac{\langle\V u_1,\V v\rangle}{\langle\V u_1,\V u_1\rangle}\V u_1 + \frac{\langle\V u_2,\V v\rangle}{\langle\V u_2,\V u_2\rangle}\V u_2+...+\frac{\langle\V u_n,\V v\rangle}{\langle\V u_n,\V u_n\rangle}\V u_n \end{align*} er det punktet i $V$ som har kortest avstand til $\V v$: \[ \|\V v-P_U( \v) \|=\min_{\V w \in V} \|\V v-\V w \| \] \end{thm} %\begin{proof} %Vi må først bevise at $\V v-P_U( \V w)$ står ortogonalt på $V$. %Rommet $V$ er utspent av $\V u_1$, $\V u _2$, ...,$\V u_n$. %Vi sjekker at $\V v-P_U( \V w)$ står ortogonalt på hver $\V u_j$: %\begin{align*} %(\V v-P_U( \V w))^*\V u_j&=\V v^*\V u_j-(P_U( \V w))^*\V u_j \\ &=\V v^*\V u_j-\V v^*\V u_j =0 %\end{align*} %Dersom $\V w \in V$, ligger også $\V w-P_U( \V w)$ i $V$, og da står $\V w-P_U( \V w)$ og $\V v-P_U( \V w)$ ortogonalt på hverande. Pytagoras' teorem gir %\begin{align*} %\|\V v-\V w \|^2&=\|\V v-P_U( \V w)-(\V w-P_U( \V w)) \|^2\\&= \|\V v-P_U( \V w) %\|^2 +\|\V w-P_U( \V w) \|^2 \\ %&\geq \|\V v-P_U( \V w) \|^2, %\end{align*} %for alle $\V w \in V$, slik at %\begin{align*} %\|\V v-\V w \| \geq \|\V v-P_U( \V w) \|^, %\end{align*} %og %\[ %\|\V v-P_U( \V w) \|=\min_{\V w \in V} \|\V v-\V w \|.\qedhere %\] %\end{proof} Punktet~$P_U(\v)$ er det unike punktet som minimerer avstanden til~$U$. Derfor er~$P_U(\v)$ uavhengig av hvilken ortogonal basis du velger for~$U$. Dette definerer en lineærtransformasjon~$P_U:V\rightarrow U$, \emph{den ortogonale projeksjonen} ned på underrommet~$U$. Du kan regne den ut ved å velge en ortogonal basis for så å bruke formelen i Teorem~\ref{thm:min}. Hvordan velger jeg en ortogonal basis? Svaret er Gram--Schmidts metode, temaet i neste seksjon. Men vi klarer å regne på et enkelt eksempel: \begin{ex} Betrakt $(x,y)$--planet som et underrom av~$\R^3$ -- ved å sette $z=0$. Vektorene \[ \V e_1=\vvv{1}{0}{0}\text{ og }\V e_2=\vvv{0}{1}{0} \] er en ortonormal basis. Formelen gir \[ P_{(x,y)\text{--planet}}\left(\vvv{v_1}{v_2}{v_3}\right)=P_{\V e_1}\left(\vvv{v_1}{v_2}{v_3}\right)+P_{\V e_2}\left(\vvv{v_1}{v_2}{v_3}\right). \] Projeksjonen~$P_{\V e_i}$ gir enkelt og greit gir ut den~$i$-te komponenten: \[ P_{(x,y)\text{--planet}}\left(\vvv{v_1}{v_2}{v_3}\right)=\vvv{v_1}{0}{0}+\vvv{0}{v_2}{0}=\vvv{v_1}{v_2}{0}. \] Resultatet er -- naturlig nok -- lineærtransformasjonen som dropper siste komponent. Standardmatrisen er \[[P_{(x,y)\text{--planet}}]= \begin{bmatrix} 1 & 0 & 0\\ 0 & 1 & 0\\ 0 & 0 & 0 \end{bmatrix}. \] \end{ex} La~$U$ være et underrom av et indreproduktrom~$V$. Vi definerer det \emph{ortogonale komplementet} til~$U$ i~$V$ som \[ U^\perp=\{\small\text{vektorene i }V\text{ som er ortogonale på alle vektorer i }U\}. \] En vektor~$\v$ er altså i~$U^\perp$ dersom~$\langle \v, \u \rangle=0 $ for alle~$\u$ i~$U$. \begin{merkx} Det ortogonale komplementet er et underrom av~$V$. \end{merkx} Det neste teoremet sier at det holder å sjekke om en vektor står normalt på en basis . \begin{thm} La~$\u_1,\u_2,\ldots,\u_n$ være en basis for et underrom~$U$. En vektor~$\v$ er i det ortogonale komplementet hvis og bare hvis~$\langle \u_i, \v\rangle$ for alle~$i$. \end{thm} \begin{ex} La oss finne det ortogonale komplementet til $(x,y)$--planet i~$\R^3$. Det består av vektorer~$\vvv{a}{b}{c}$ slik at \[ \vvv{a}{b}{c}\boldsymbol{\cdot}\vvv{1}{0}{0}=0 \] og \[ \vvv{a}{b}{c}\boldsymbol{\cdot}\vvv{0}{1}{0}=0. \] Venstre side er henholdsvis~$a$ og~$b$. Kravet for å være i det ortogonale komplementet er~$a=b=0$; det ortogonale komplementet er~$z$--aksen. \end{ex} Før neste teorem kan det være nyttig å tenke over hvorfor det ortogonale komplementet til en linje i~$\R^3$ er et plan; hvorfor det ortogonale komplementet til et plan i~$\R^3$ er en linje. \begin{thm} \label{thm:dimsetn} La~$U$ være et underrom av et indreproduktrom~$V$. Da gjelder \[ \dim U+ \dim U^\perp =\dim V. \] \end{thm} %\begin{ex} %Rekkerommet og nullrommet står ortogonalt på hverandre. %\end{ex} \section*{Gram-Schmidts metode} La $\V v_1$, $\V v_2$, ...,$\V v_n$ være en lineært uavhengig vektormengde. Vi skal lage oss en ortogonal basis $\V u_1$, $\V u_2$, ...,$\V u_n$ for rommet utspent av vektorene i mengden. Vi begynner med å definere \[ \V u_1=\V v_1 \] Vektoren $\V v_2$ er ikke nødvendigvis ortogonal på $\V u_1$, men \[ \V u_2=\V v_2-P_{\V u_1} (\V v_2)=\V v_2-\frac{\langle \V u_1,\V v_2\rangle}{\langle\V u_1, \V u_1\rangle}\V u_1 \] er -- fordi vi trakk fra komponenten langs~$\u_1$. Vektoren \begin{align*} \V u_3&=\V v_3-P_{\V u_1} (\V v_3)-P_{\V u_2} (\V v_3)\\[2pt]&=\V v_3-\frac{\langle \V u_1,\V v_3\rangle}{\langle\V u_1, \V u_1\rangle}\V u_1-\frac{\langle \V u_2,\V v_3\rangle}{\langle\V u_2, \V u_2\rangle}\V u_2 \end{align*} er ortogonal på både $\V u_1$ og $\V u_2$ -- fordi vi trakk fra komponentene langs~$\u_1$ og~$\u_2$. De tre vektorene $\V u_1$, $\V u_2$ og $\V u_3$ spenner ut det samme rommet som $\V v_1$, $\V v_2$ og $\V v_3$. Nå kan vi fortsette slik, og definere rekursivt \begin{align*} \V u_k&=\V v_k-\sum_{j=1}^{k-1}P_{\V u_j} (\V v_k)\\[2pt]&=\V v_k-\sum_{j=1}^{k-1}\frac{ \langle\V u_j,\V v_k\rangle}{\langle\V u_j, \V u_j\rangle}\V u_j. \end{align*} \begin{thm} Mengden $\V u_1$, $\V u_2$, ...,$\V u_n$ er en ortogonal basis for rommet utspent av $\V v_1$, $\V v_2$, ...,$\V v_n$. \end{thm} \begin{proof} Vi bruker induksjon. Det er lett å se at $\V u_1$ og $\V u_2$ er ortogonale: \begin{align*} \langle\V u_1,\V u_2\rangle&=\langle\V u_1,(\V v_2-\frac{ \langle\V u_1,\V v_2\rangle}{\langle\V u_1, \V u_1\rangle}\V u_1)\rangle \\&=\langle\V u_1,\V v_2\rangle-\frac{ \langle\V u_1,\V v_2\rangle}{\langle\V u_1, \V u_1\rangle}\langle\V u_1,\V u_1\rangle \\ &= \langle\V u_1,\V v_2\rangle-\langle\V u_1,\V v_2\rangle=0 \end{align*} Siden $\V u_1$ og $\V u_2$ er ikketrivielle lineærkombinasjoner av de lineært uavhegnige vektorene $\V v_1$ og $\V v_2$, er det åpenbart at $\V u_1$ og $\V u_2$ spenner ut det samme rommet som $\V v_1$ og $\V v_2$. La nå \[ V_{k}=\Sp\{\V v_1,\V v_2,\dots,\V v_k\}. \] Vi antar at $\V u_1,\V u_2,\dots,\V u_{k-1}$ er en ortogonal basis for $V_{k-1}$. Vi må vise at $\V u_k$ står ortogonalt på $V_{k-1}$, og at $\V u_1,\V u_2,\dots,\V u_{k}$ spenner ut $V_k$. Vi sjekker indreproduktet av $\V u_j$ med $\V u_k$. Siden $\V u_j^*\V u_m=0$ når $j\neq m$, får vi \begin{align*} \langle\V u_j,\V u_k\rangle&=\langle\V u_j,(\V v_k-\sum_{m=1}^{k-1} \frac{ \langle\V u_m,\V v_k\rangle}{\langle\V u_m, \V u_m\rangle}\V u_m)\rangle \\&=\langle\V u_j,\V v_k\rangle-\sum_{m=1}^{k-1} \frac{ \langle\V u_m,\V v_k\rangle}{\langle\V u_m, \V u_m\rangle}\langle\V u_j,\V u_m\rangle \\ &= \langle\V u_j,\V v_k\rangle-\langle\V u_j,\V v_k\rangle=0. \end{align*} Vi ser altså at $\V u_k$ står ortogonalt på alle $\V u_j$, og siden $\V u_1,\V u_2,\dots,\V u_{k-1}$ er en ortogonal basis for $V_{k-1}$, står $\V u_k$ ortogonalt på $V_{k-1}$. Siden $\V v_k$ er lineært uavhengig av $\V u_1,\V u_2,\dots,\V u_{k-1}$, og $\V u_k$ er en lineærkombinasjon av $V_k$ og $\V u_1,\V u_2,\dots,\V u_{k-1}$, spenner $\V u_1,\V u_2,\dots,\V u_{k}$ ut $V_k$. \end{proof} La oss illustrere metoden med et par eksempler. \begin{ex} \label{eks:gs} Vi finner en ortogonal basis for underrommet~$U$ av~$\R^4$ utspent av \[ \v_1=\vvvv{2}{1}{1}{0}\text{, }\v_2=\vvvv{1}{0}{-2}{1}\text{ og }\v_3=\vvvv{1}{1}{1}{0}. \] Ta~$\u_1=\v_1$. Observer at \[ \u_1\boldsymbol{\cdot} \v_2=2\cdot 1+1\cdot0+1\cdot (-2)+0\cdot 1=0. \] De er allerede ortogonale, så neste basisvektor blir bare \[ \u_2=\v_2-\frac{\u_1 \boldsymbol{\cdot} \v_2}{\u_1 \boldsymbol{\cdot} \u_1}\u_1 =\v_2. \] Siste basisvektor er \begin{align*} \u_3&=\v_3-\frac{\u_1 \boldsymbol{\cdot} \v_3}{\u_1 \boldsymbol{\cdot} \u_1}\u_1-\frac{\u_2 \boldsymbol{\cdot} \v_3}{\u_2 \boldsymbol{\cdot} \u_2}\u_2\\ &=\vvvv{1}{1}{1}{0}-\frac{\vvvv{2}{1}{1}{0} \boldsymbol{\cdot} \vvvv{1}{1}{1}{0}}{\vvvv{2}{1}{1}{0}\boldsymbol{\cdot} \vvvv{2}{1}{1}{0}}\vvvv{2}{1}{1}{0}\\ &-\frac{\vvvv{1}{0}{-2}{1}\boldsymbol{\cdot} \vvvv{1}{1}{1}{0}}{\vvvv{1}{0}{-2}{1} \boldsymbol{\cdot} \vvvv{1}{0}{-2}{1}}\vvvv{1}{0}{-2}{1}\\ &=\vvvv{1}{1}{1}{0}-\frac{4}{6}\vvvv{2}{1}{1}{0}-\frac{-1}{6}\vvvv{1}{0}{-2}{1}\\ &=\frac{1}{6}(\vvvv{6}{6}{6}{0}+\vvvv{-8}{-4}{-4}{0}+\vvvv{1}{0}{-2}{1})\\ &=\frac{1}{6}\vvvv{-1}{2}{0}{1}. \end{align*} Vektorene \[ \vvvv{2}{1}{1}{0}\text{, }\vvvv{1}{0}{-2}{1}\text{ og }\frac{1}{6}\vvvv{-1}{2}{0}{1} \] er en basis for~$U$. Den blir finere dersom vi skalerer~$\u_3$ med~$6$: samlingen \[ \vvvv{2}{1}{1}{0}\text{, }\vvvv{1}{0}{-2}{1}\text{ og }\vvvv{-1}{2}{0}{1} \] er også en ortogonal basis for~$U$. \end{ex} \begin{ex} Vi finner en ortogonal basis for underrommet~$U$ av~$\Cf_s([0,1])$ utspent av~$1$,~$x$ og~$x^2$. Start med~$\u_1=x$ for å kunne gjenbruke utregninger fra Eksempel~\ref{eks:xx2}. Ta $\v_2=x^2$: \begin{align*} \u_2&=\v_2-\frac{\langle\u_1 ,\v_2\rangle}{\langle\u_1 ,\u_1\rangle}\u_1 =x^2-\frac{\langle x ,x^2\rangle}{\langle x,x\rangle}x\\ &=x^2-\frac{\frac{1}{4}}{\frac{1}{3}}x =x^2-\frac{3}{4}x \end{align*} Du kan sjekke at \begin{align*} \langle x^2-\frac{3}{4}x,x^2-\frac{3}{4}x\rangle &= \frac{1}{80} \end{align*} og \begin{align*} \langle x^2-\frac{3}{4}x,1\rangle &= -\frac{1}{24}. \end{align*} Siste basisvektor er \begin{align*} \u_3&=1-\frac{\langle x ,1\rangle}{\langle x,x\rangle}x-\frac{\langle x^2-\frac{3}{4} ,1\rangle}{\langle x^2-\frac{3}{4}x,x^2-\frac{3}{4}x\rangle}(x^2-\frac{3}{4}x)\\ &=1-\frac{\frac{1}{2}}{\frac{1}{3}}x-\frac{-\frac{1}{24}}{\frac{1}{80}}(x^2-\frac{3}{4}x)\\ &= \frac{10}{3}x^2-\frac{12}{3}x+1 \end{align*} En ortogonal basis for~$U$ er \[ x\text{, }x^2-\frac{3}{4}x\text{ og }\frac{10}{3}x^2-\frac{12}{3}x+1. \] \end{ex} La~$U$ være et underrom til et indreproduktrom~$V$. Her er en metode for å regne ut den ortogonale projeksjonen~$P_U$: \begin{enumerate} \item Bruk Gram-Schmidt til å finne en ortogonal basis~$\u_1,\u_2,\ldots ,\u_n$ for~$U$. \item Den ortogonale projeksjonen er\[ P_U(\x)=P_{\u_1}(\x)+P_{\u_2}(\x)+\dots +P_{\u_n}(\x). \] \item Hvis~$V=\R^n$, så er standardmatrisen \[ \begin{bmatrix} P_U(\V e_1) &P_U(\V e_2)& \dots& P_U(\V e_n) \end{bmatrix}. \] \end{enumerate} \begin{ex} Finn standardmatrisen til~$P_U$ hvor~$U$ er underrommet av~$\R^4$ utspent av \[ \v_1=\vvvv{2}{1}{1}{0}\text{, }\v_2=\vvvv{1}{0}{-2}{1}\text{ og }\v_3=\vvvv{1}{1}{1}{0}. \] Vi fant en ortogonal basis i Eksempel~\ref{eks:gs}: \[ \u_1=\vvvv{2}{1}{1}{0}\text{, }\u_2=\vvvv{1}{0}{-2}{1}\text{ og }\u_3=\vvvv{-1}{2}{0}{1} \] Regn ut~$P_U(\V e_1)$: \begin{align*} P_U(\V e_1)&=P_{\u_1}(\V e_1)+P_{\u_2}(\V e_1)+P_{\u_3}(\V e_1)\\ &=\frac{\vvvv{2}{1}{1}{0}\boldsymbol{\cdot}\vvvv{1}{0}{0}{0}}{\vvvv{2}{1}{1}{0}\boldsymbol{\cdot}\vvvv{2}{1}{1}{0}}\vvvv{2}{1}{1}{0} + \frac{\vvvv{1}{0}{-2}{1}\boldsymbol{\cdot}\vvvv{1}{0}{0}{0}}{\vvvv{1}{0}{-2}{1}\boldsymbol{\cdot}\vvvv{1}{0}{-2}{1}}\vvvv{1}{0}{-2}{1}\\ &+ \frac{\vvvv{-1}{2}{0}{1}\boldsymbol{\cdot}\vvvv{1}{0}{0}{0}}{\vvvv{-1}{2}{0}{1}\boldsymbol{\cdot}\vvvv{-1}{2}{0}{1}}\vvvv{-1}{2}{0}{1}\\ &=\frac{2}{6}\vvvv{2}{1}{1}{0} + \frac{1}{6}\vvvv{1}{0}{-2}{1} + \frac{-1}{6}\vvvv{-1}{2}{0}{1}\\ &=\frac{1}{6}\vvvv{6}{0}{0}{0}=\vvvv{1}{0}{0}{0} \end{align*} Siden~$P_U(\V e_1)=\V e_1$ skjønner vi at~$\V e_1$ ligger i~$U$. En del regning gir at~$P_U(\V e_2)$,~$P_U(\V e_3)$ og~$P_U(\V e_4)$ er henholdsvis \[ \frac{1}{6}\vvvv{0}{5}{1}{2}\text{, }\frac{1}{6}\vvvv{0}{1}{5}{2}\text{ og }\frac{1}{6}\vvvv{0}{2}{-2}{2}. \] Standardmatrisen er \[ [P_U]=\frac{1}{6}\begin{bmatrix} 6 & 0 & 0 & 0\\ 6 & 5 & 1 & 2\\ 6 & 1 & 5 & -2\\ 6 & 2 & 2 & 2 \end{bmatrix}. \] \end{ex} \section*{Komplekse indreprodukt} Hva skjer om vi definerer prikkproduktet i~$\C^n$ på samme måte som i~$\R^n$? La oss prøve: Et produkt \[ \V v\boldsymbol{\cdot} \V w=v_1w_1+v_2w_2+\dots +v_nw_n, \] hvor~$v_i$-ene og~$w_j$-ene er komplekse tall, tilfredstiller ikke nødvendigvis at~$\V v\boldsymbol{\cdot} \V v$ er et reelt tall. Eksempelvis er\[ \vv{e^{i\frac{\pi}{4}}}{0}\boldsymbol{\cdot}\vv{e^{i\frac{\pi}{4}}}{0}=e^{i\frac{\pi}{4}}e^{i\frac{\pi}{4}}=i. \] Dette er et problem hvis vi ønsker å definere lengde som i det reelle tilfellet. Vi kan med andre ord ikke definere \[ \|\vv{e^{i\frac{\pi}{4}}}{0}\|^2=\vv{e^{i\frac{\pi}{4}}}{0}\boldsymbol{\cdot}\vv{e^{i\frac{\pi}{4}}}{0}. \] Det finnes en enkel måte å fikse dette problemet. Husk at prikkproduktet i~$\R^n$ er et matriseprodukt \[ \v\boldsymbol{\cdot}\w=\v\tr\w. \] Nå konjugerer vi $\v$, i tillegg til å transponere den, \[ \v^*=\begin{bmatrix} \overline{v_1} & \overline{v_2} & \dots & \overline{v_n}. \end{bmatrix} \] Vektoren~$\v ^*$ kalles den \emph{adjungerte} til~$\v$. Nå kan vi bruke matrisemultiplikasjon til å definere et produkt \[ \V v ^*\V w=\overline{v_1}w_1+\overline{v_2}w_2+\dots +\overline{v_n}w_n. \] Merk deg at\begin{align*} \V v ^*\V v&=\overline{v_1}v_1+\overline{v_2}v_2+\dots +\overline{v_n}v_n\\ &=|v_1|^2+|v_2|^2+\dots+|v_n|^2 \end{align*} alltid et ikke-negativt reelt tall; summen av lengden til komponentene. Et eksempel er \[ \vv{e^{i\frac{\pi}{4}}}{0}^*\vv{e^{i\frac{\pi}{4}}}{0}=\overline{e^{i\frac{\pi}{4}}}e^{i\frac{\pi}{4}}=e^{-i\frac{\pi}{4}}e^{i\frac{\pi}{4}}=1. \] Vi har ikke lengre symmetri,~$\V v ^*\V w\neq \V w ^*\V v$, men vi har \emph{konjugert symmetri} \[ \V v ^*\V w=\overline{\V w ^*\V v}. \] Ellers kan du sjekke at vi fortsatt har linearitet i andre variabel \[ \V v ^*(a\V w+b\V u)=a\V v ^*\V w+b\V v ^*\V u, \] og positivitet \[ \V v^*\V v \geq 0,\text{ og } \V v^*\V v = 0 \text{ kun hvis } \V v=\V 0. \] Basert på motivasjonen fra det reelle indreproduktet virker det rimelig at dette fortsatt gir en rik geometri som blant annet inneholder lengde, ortogonalitet og projeksjoner. \begin{defn} La~$V$ være et komplekst vektorrom. Et \emph{indreprodukt} i~$V$ er en operasjon som tar inn to vektorer,~$\V v$ og~$\V w$, for å gi ut et komplekst tall~$\langle\V v,\V w\rangle$. Operasjonen tilfredstiller \begin{align*} &\langle\V v,\V w\rangle=\overline{\langle\V w,\V v\rangle} &&\text{(konj. sym.)}\\ &\langle\V v ,(a\V w+b\V u) \rangle=a\langle\V v , \V w\rangle+b \langle \V v , \V u\rangle &&\text{(linearitet)}\\ &\langle \V v,\V v\rangle \geq 0,\text{ og } \langle \V v,\V v\rangle = 0 \text{ kun hvis } \V v=\V 0 &&\text{(positivitet)} \end{align*} Vi sier at $V$, sammen med ett valgt indreprodukt, er et \emph{indreproduktrom}. \end{defn} \begin{merk} Positivitet viser igjen at den eneste vektoren som er ortogonal med \emph{alle} vektorer i $V$ er nullvektoren. \end{merk} Du trenger kun å vite om ett komplekst eksempel, nemlig~$\C^n$. \begin{ex} Operasjonen \[ \langle\V v,\V w\rangle=\V v \boldsymbol{\cdot} \V w = \V v ^*\V w, \] er et indreprodukt i~$\C^n$. Til sammen utgjør de et komplekst indreproduktrom. \end{ex} \begin{merkx} Dersom $\V{v}$ og $\V{w}$ er reelle, blir \[ \V{v}^* \V{w}=\V{v}^T\V{w}= v_1w_1 + v_2w_2 + \cdots +v_nw_n=\V{v}\cdot \V{w} \] det gode gamle skalarproduktet. Fra nå av er~$\V{v}^* \V{w}$ en fellesbetegnelse for skalarproduktet i~$\R^n$ og indreproduktet i~$\C^n$. \end{merkx} \begin{merkx} Nesten alt vi gjorde for reelle indreproduktrom gjelder også for komplekse indreproduktrom. Det er ett unntak, vinkelen er ikke definert. Grunnen er at Caucy--Schwarz, Teorem~\ref{thm:cs}, impliserer at~$\langle\V v,\V w\rangle$ er et komplekst tall med lengde mindre eller lik~$1$. I det reelle tilfellet befinner oss dermed i intervallet~$[0,1]$, men i det komlekse tilfellet er det flere tall som er inkludert; disken som er sentrert i~$0$ med radius~$1$. \end{merkx} \begin{thm} Alt som gjelder for reelle indreproduktrom, med unntak av vinkelen, gjelder også for komplekse indreproduktrom. \end{thm} \begin{ex} Vektorene \[ \begin{bmatrix} 1 \\ i \end{bmatrix} \quad \text{og} \quad \begin{bmatrix} i \\ 1 \end{bmatrix} \] er ortogonale: \[ \vv{1}{i}^*\vv{i}{1}=\overline{1}\cdot i+\overline{i}\cdot 1=i-i=0. \] \end{ex} \begin{ex} La oss projisere vektoren \[ \V w= \begin{bmatrix} -5i \\ 0 \\ 2i \end{bmatrix} \] både på og normalt på \[ \V v= \begin{bmatrix} 3 \\ -i \\ 4 \end{bmatrix}. \] Vi beregner: \[ \V v^* \V v=3\cdot 3+i\cdot (-i)+4\cdot 4=26 \] og \[ \V v^* \V w = 3 \cdot (-5i) + i \cdot 0 + 4 \cdot 2i = -7i \] slik at \begin{align*} P_{\V v}\V w =\frac{ \V v^*\V w}{\V v^* \V v} \V v = \frac{-7i}{26} \begin{bmatrix} 3 \\ -i \\ 4 \end{bmatrix} \end{align*} og \begin{align*} \V w-P_{\V{v}}(\V w)&=\V w-\frac{ \V v^*\V w}{\V v^* \V v} \V v \\&= \begin{bmatrix} -5i \\ 0 \\ 2i \end{bmatrix} - \frac{-7i}{26} \begin{bmatrix} 3 \\ -i \\ 4 \end{bmatrix} = \frac{1}{26} \begin{bmatrix} -109i \\ 7 \\ 80i \end{bmatrix}\qedhere \end{align*} \end{ex} Vi avslutter seksjonen med en liten diskusjon om adjungering, noe du kanskje kommer til å møte på i fremtiden. Man kan definere den \emph{adjungerte} til \[ A = \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{bmatrix} \] som matrisen \[ A^* = \begin{bmatrix} \overline a_{11} & \overline a_{21} & \cdots & \overline a_{m1} \\ \overline a_{12} & \overline a_{22} & \cdots & \overline a_{m2} \\ \vdots & \vdots & \ddots & \vdots \\ \overline a_{1n} & \overline a_{2n} & \cdots & \overline a_{mn} \end{bmatrix} \] der radene og kolonnene i~$A$ er byttet om, og alt er komplekskonjugert. Du kan sjekke at siden~$(AB)\tr=B\tr A\tr$, så gjelder \[ (A\x)^*\V y=\x^*(A^*\V y). \] Mer generelt, la~$V$ og~$W$ være indreproduktrom, og~$T$ er en lineærtransformasjon mellom dem. Den \emph{adjungerte} til $T$, $T^*$, er lineærtransformasjonen som tilfredstiller \[ \langle T(\x),\V y \rangle =\langle\x, T^*(\V y)\rangle. \] \begin{ex} Hvis vi lar $A$ være matrisen \[ A = \begin{bmatrix} 5i & 0 & -2i \\ 3 & i & 4 \end{bmatrix}, \] så er den adjungerte av~$A^*$ gitt ved: \[ A^* = \begin{bmatrix} -5i & 3 \\ 0 & -i \\ 2i & 4 \end{bmatrix} \] Hvis vi adjungerer denne matrisen igjen, så kommer vi tilbake til utgangspunktet: \[ (A^*)^* = A\qedhere \] \end{ex} \begin{merkx} $A=A^{**}$ \end{merkx} Det siste resultatet i denne seksjonen er grunnlaget for minste kvadraters metode -- som er en anvendelse i neste kapittel. La $A$ være en~$m\times n$-matrise. Da observerer vi en sammenheng mellom kolonnerommet til $A^*$ og nullrommet til $A$. For hvis $\V w= A^* \V u$ og~$A\v=\V 0$, så er \begin{align*} \w^* \v&=(A^* \V u)^*(\v)=\V u^*(A^{**}\v)\\ &=\V u^*(A\v)=\V u^* \V 0=0. \end{align*} Dette viser at $\w$, som ligger i $\Col A^*$, er ortogonal med $\Null A$. Faktisk gjelder følgende likheter: \begin{thm} La $A$ være en~$m\times n$-matrise. Da vet vi \begin{align*} (\Col A)^\perp & = \Null A^* \\ (\Null A)^\perp & = \Col A^*. \end{align*} \end{thm} \begin{proof} Det holder å bevise en av påstandene. For den andre følger ved å se på $A^*$ istedet for $A$. Så la oss bevise $(\Col A)^\perp = \Null A^*$. Vi skal vise denne påstanden ved å sjekke at $(\Col A)^\perp$ er en delmengde av $\Null A^*$ og at samtidig $\Null A^*$ er en delmengde av $(\Col A)^\perp$. Vi begynner med at $\x$ er en vektor i $(\Col A)^\perp$. La $\V a_1, \ldots, \V a_n$ være kolonnevektorene i $A$. Kolonnerommet $\Col A$ er utspent av kolonnene i $A$. Altså er $\x$ ortogonal med alle $\V a_i$, dvs \[ 0 = \langle \V a_i, \x \rangle = \a_i^*\x~\text{for alle}~i=1,\ldots,n. \] Men dette betyr ved definisjon av multiplikasjonen matrise gang vektor at $A^*\x = \0$. Altså ligger $\x$ i $\Null A^*$. En annen måte å vise dette er å observere at $\x \in (\Col A)^\perp$ betyr at \[ \langle A\u, \x \rangle = 0 ~\text{for alle}~\u \in \C^n. \] Men vi vet \[ \langle A\u, \x \rangle = \langle \u, A^*\x \rangle. \] Altså har vi \[ \langle \u, A^*\x \rangle = 0 ~\text{for alle}~\u \in \C^n. \] Vektoren $A^*\x$ er altså ortogonal med \emph{alle} vektorer i $\C^n$. På grunn av positivitet må $A^*\x$ være nullvektoren, dvs $\x$ ligger i $\Null A^*$. Omvendt la oss anta at $\x$ er en vektor i $\Null A^*$. Dette betyr at $A^*\x=\0$ og viser ved definisjon av multiplikasjonen matrise gang vektor at $\x$ ortogonal med alle kolonnene i $A$. Med andre ord $\x$ ligger i $(\Col A)^\perp$. %Det betyr at det finnes en vektor $\u \in \C^m$ slik at $\V w= A^* \V u$. %La $\v$ være en vektor i $Null A$, dvs $A\v=\0$. %Da får vi %\[ %\langle \w, \v \rangle = (A^*\u)^*\v = \u^* A\v = \u^*\0 = 0. %\] %Dette betyr at $\w$ ligger også i $(\Null A)^\perp$. %Altså er $\Col A^*$ er en delmengde av $(\Null A)^\perp$. % % %Nå antar vi at $\w$ er en vektor i $(\Null A)^\perp$, dvs $\w$ er ortogonal med alle vektorer i $\Null A$. \end{proof} \begin{merk} For en \emph{reell} $m\times n$-matrise $A$ sier teoremet: \begin{align*} (\Col A)^\perp & = \Null A^T \\ (\Null A)^\perp & = \Col A^T. \end{align*} \end{merk} \kapittelslutt