IBM in Silicon Valley

Op 16 september zaten we in het IBM Software Executive Briefing Center Silicon Valley. En je weet het of je weet het niet: hier is in 1983 de relationele database management system DB2 uitgevonden, maar ook werden er de fundamenten van COBOL gebouwd. Een en al software zeg maar.

Bij aankomst werd er ons op gewezen dat er aardbevingsgevaar is. En zoals altijd is het niet de aardbeving zelf die de meeste schade veroorzaakt, maar wel de gevaarlijke branden die er op volgen. Bedoeling was dat we dan onder onze desks zouden kruipen. Goed om te weten.

Maar goed, wat deden we bij IBM? Een heerlijk ontbijt kregen we alvast. En dan werd er kei hard ingevlogen. Hieronder een samenvatting op basis van mijn notities.

Information on Demand

De eerste presentatie ging over Information on Demand. Dit benadrukte het feit dat IT automatisatie onder controle is, en dat nu integratie, analyse en het anticiperen op de toekomst de boventoon voeren.

Informatie heeft hoe dan ook een strategische waarde, en ook in bedrijfscontext is deze waarde verspreid over meerdere databases. Daarnaast heb je nog informatie buiten het bedrijf. Via risk analysis en interactieve on demand planning wordt er één betrouwbarde single view van de wijdverbreide databanken bewerkstelligd. 

Het tweede dat je ook wilt doen is warehousing, oftewel data van het warehouse analyseren en integreren via een informatiesysteem om deze efficïent te kunnen managen. Voeg daar tenslotte nog business intelligence (denk iets als Amazon recommendations) en performance management bij en je bent compleet. 

In dit laatste verband kan men opmerken dat snelheid, volume en betrouwbaarheid belangrijker zijn dan ooit. Vijf miljoen transacties per seconde zijn niet meer ongewoon en elke milliseconde die gewonnen of verloren kan worden is van levensbelang.

Wat IBM ook doet, is het aanleveren van starter kits en templates om de optimalisatie te vereenvoudigen. Industrie standaarden, strategie, infrastructuur en overheid zijn hier belangrijk. Laten we ook niet vergeten dat informatie gearchiveerd of gedelete moet worden na x aantal jaren. Ook dat doet IBM, om uiteindelijk een uitgestippeld plan van begin tot einde te bekomen. Dit is wat IBM bedoelt met the information agenda.

Content Manager Solutions and Directions

Een tweede presentatie ging over content management. 

Je hebt vandaag veel te maken met ongestructureerde content zoals video, XML (en alle social networking sites) en alle andere data dat niet database driven is. Bovendien genereren ERP paketten ook nog eens ongestructureerde content (bv. facturen). Je eindigt dus met 80% ongestructureerde content. 

Hoe ga je dan het financieel risico zo kunnen reduceren om een competitief voordeel te creëren?

Ten eerste heb je personal content zoals IM en blogs.  Deze zijn extreem horizontaal, net zoals Content Collaboration (denk bv. CAT drawings). Tenslotte heb je nog Content Enabled Applications, welke specifieke applicaties zijn voor bijvoorheeld het departement financiën.

Records Management werkt met behulp van taxonomieën en analytics om orde in de chaos te brengen. Actieve content verandert voortdurend en versioning is daarbij genoodzaakt. Business Agilitiy vereist om processen te mappen en zelfs simulaties uit te voeren. Je moet vooral niet vergeten dat het geheel compliant moet zijn op enterprise niveau en dat content overal verspreid is. IBM reikt ook UI hooks aan om het leven voor de eindgebruiker te vereenvoudigen, evenals templates en digital asset management oplossing zoals we die ook in Drupal kennen om digitale content zoals video/streams te managen. 

Bij IBM zijn ze ook niet vies van mashups en widgets en zo hebben ze bijvoorbeeld ook iets dat business rules management reguleert, ILOG genaamd. Wat mij ook wel verbaasdde was de aangehaalde coopertition met Microsoft Sharepoint.

Task connectors crawlen repositories en in essentie wordt een pijp gebouwd waarlangs geformatteerde data passeert (pull and drag fenomeen), terwijl de target connectors juist kijken waar data naartoe gaat (a.d.h.v. bijvoorbeeld tags).

Uiteindelijk draait het om de klant: wat is het ROI van die single database view?

Data Warehousing and Business Intelligence

Data Warehousing is de mogelijkheid om data uit het warehouse te halen, deze te analyseren, eventueel transformeren en de complexiteit eruit te halen. Business Intelligence is het proces waarbij data geanalyseerd wordt en in een verantwoorde manier wordt toegepast (bv. product recommendations, similar products enzovoort).

Bij traditionele warehousing blijft fraude een louter feit, bij dynamische warehousing analyseert BI de data, nog voor er een claim van fraude volgt. Mogelijke problemen worden gedetecteerd aan de hand van red flags. Welke klanten vertrekken mogelijk? Hoe kunnen we een bepaalde situatie anders aanpakken? Hoe kan je de verkopen optimaliseren?

Het draait niet om de kostenbesparing an sich, maar om het competitief voordeel dat er mee gepaard gaat.

Het overkoepelende idee blijft om een single view van de verschillende databasese te hebben, zoals al eerder opgemerkt. Dit idee wordt nu verder uitgebreid naar een window tussen BI en Warehousing, resulterende in een three-tier architectuur bestaande uit de hardware layer, de data layer en de performance layer (het window).

Uiteindelijk kom je tot een betrouwbare en performerend geconsolideerd warehouse: de meerdere layers zijn er nog steeds, maar je hebt alles op één centrale plek.

DB2 Trends and Direction

Via een eclipse plugin Design Studio genaamd kan je een type analyse kiezen om nieuwe associaties van data te extracteren. 

Het IBM DB2 Warehouse biedt pregeconfigureerde units, 1 nummer voor support en plug & play opties standaard aan.

Aan de hand van OLAP, een methode om snel de context van business vereisten te begrijpen (10 dollar is oké, maar wat is de context van die 10 euro precies?) in een veelheid van multi-dimensionale data in een database. Via MDX queries wordt data opgevraagd van een Cube server (cubes representeren geheugen in een bedrijfscontext, de server is de OLAP Provider), deze zendt deze naar de DB2 Warehouse en dan wordt het weer teruggestuurd.

Op ongestructureerde data wordt eerst een basis linguïstische analyse uitgevoerd, dan wordt metadata geëxtracteerd en vindt data mining plaats (dit wordt dan geïntegreerd met bijvoorbeeld MS Office om in een begrijpbare vorm te worden gepresenteerd voor business manager en rapporten voor CEO worden aangeleverd in PDF en niet te vergeten met toegankelijkheid in het achterhoofd). Tenslotte vindt er OLAP plaats.

DB2 Trends and Direction

De laatste presentatie was heel technisch en Computer Science gerelateerd. Het handelde over de trends in database ontwikkeling en scalability.

Tegenwoordig wordt er veelvuldig gebruik gemaakt van hash distributie of paritition van data volgens een range (bv. shipdate). Je hebt een homogene distributie en queries lopen in paralllel. Vervolgens wordt de data gepartioneerd, oftwel clustering toegepast, om een betere performantie te halen en dat op meerdere machines om het warehouse te vormen. En dan ging het nog over scalability met een shared nothing architectuur. Immers, als de data al gepartitioneerd is, kan deze verwijderd worden. Het betreft een multidimensionele clustering waarbij de data fysich wordt geclusterd in regions (bv. BNP 2004, BNP 2005 etc.), waarbij dan data sequentieel ingelezen wordt.

En toen ging het over solidDB. In essentie gebeurt alles in memory (als het crasht kan je het makkelijk recoveren), waardoor de response tijd voor lezen en schrijven korter wordt. Het is volledig functioneel met API’s (ODBC, JDBC,…) om DBMS‘en aan te spreken. Bovendien kan het zeer goed ingebed worden en replicatie is mogelijk in geval van faling. Die gegevensreplicatie gebeurd via HADR.

En toen ging het over databases en xml. IBM hamert op xml industrie standaarden. 

Hiërarchische xml wordt omgezet naar tabellen. Je krijgt 1 XML tabel in plaats van 100 tabellen zoals vroeger de standaard was. Een xml schema omzeten naar een relationele tabel gebeurt via XMLSpy. Je krijgt dus een SQL statement in de vorm van: CREATe TABLE T (ID int, trade XML);, waarbij je de XML hiërarchish opslaat en zo opvraagt.

De technologie die achter het XML datatype dat hiërarchisch opgeslagen wordt zit, wordt pureXML genoemd. Dus echt pure XML in de database. Geen afzonderlijke files meer, maar er wordt wel compressie toegepast. Zowel XPath als Full Textsearch kan worden gekozen.

Men had het tenslotte over workload management wat betekent dat sommige applicaties belangrijker zijn dan andere. Denk richting gold customers. Deze krijgen dan voorrang en
dus een betere performance toegewezen. En verder had je ook nog label based access control: per rij in de database wordt een user sessie meegeven.

Tour of the Computer Center & Tour of the Usability Center

Om de dat af te sluiten kregen we nog twee rondleidingen.

Het Computer Center is een data center waar software wordt getest en massa’s systeem operatoren werken. Ik was niet zo zeer onder de indruk, buiten die kabels waar 4 Terabyte (als ik mij niet vergis) door vliegt. Vraag die ik me stel: waarom daar een data center planten, nog wel dichtbij de San Andreas breuklijn (tussen haakjes: Google doet koelen tegenwoordig op een boot in de oceaan)?

Het Usability Center werd voorgesteld door (hoe kan het ook anders) drie Aziaten, klein in size. Geen eye tracking, maar wel camera’s  in een natuurlijke omgeving waar je het gevoel hebt dat men werkelijk naar je luistert. Kortom, je voelt je er op je gemak. Surf eens naar de Lenovo site en zoek een docking station accessory voor de T60. Wat is niet duidelijk? Wat kan eenvoudiger? Zo’n dingen.

Leave a Reply

Your email address will not be published. Required fields are marked *