Konference: SAPI-1 a československé mikropočítače

Od: Jiri Biba
Datum: 28.6.2013 17:49
Předmět: RE: Archiv SAPI


No to by stačilo, zkusíš ho oslovit?

Stále ale doufám, že se ozve někdo kdo to má v pst složce. To by byla
 jinčí
káva...

Jirka

-----Original Message-----
From: LitilDivil (sapi tu byla ta zakroucena vec pandora.cz) [mailto:litildivil tu byla ta zakroucena vec seznam.cz] 
Sent: Friday, June 28, 2013 4:08 PM
To: Konference "SAPI-1 a československé mikropočítače"
Subject: Re: Archiv SAPI


Přeposílám info z konfery speccy:

Tato zprava je crospostovana do konferenci sharpemu a do speccy. Budu rad,
kdyz ji budete posilat (alespon odkaze) dle vlastniho uvazeni i do dalsich
konferenci na pandore.

Ahoj,

protoze jsem na svou posledni zpravu, kterou jsem zaslal adminum pandory uz
neobdrzel zadnou odpoved, tak jsem se vrhnul na ubastleni vlastniho parseru,
ktery vyzobe obsah libovolne verejne dostupne konference z jejiho archivu na
webu pandory a ulozi jej do smysluplne datove struktury.

Script si sam projde vsechny roky a mesice v konferenci, ale jim parsovat
treba jen na konkretni rok, mesic, nebo zpravu. Ukladani obsahu je aditivni,
takze po nacteni casti konference do DB muze byt dale aktualizovan obsah
databaze podle toho, jak budou na pandore pribyvat prispevky.

Vizualizaci jiz stazeneho archivu konference sharpemu jsem provedl zde
http://sharpemu.ordoz.com/

Prozatim je to bez jakychkoliv stylu, jen hole html, takze to vypada ... 
tak jak to vypada.

Script umi z vebu parsovat:

- hlavicku zpravy (from, date, subject)
- samotne telo
- attachment files (zatim ulozeno jen jako seznam)
- strom vlaken zprav

TODO:

- automaticke stazeni attachmentu
- vyparsovani a stazeni obrazku, ktere jsou soucasti tela zpravy (zrejme jen
smailiky :)
- procisteni tela zprav od zbytecneho html balastu
- alespon castecne odstraneni reklam z tela zprav
- automaticke generovani xml exportu pro google search

Pokud se chcete na neco zeptat, tak se ptejte :) Pokud mate zajem o
vygenerovani archivu nejake dalsi konference provozovane na pandore, tak mi
dejte vedet.

Vyparsovana data jsou prozatim ulozena do takto rozvrzenych tabulek:

CREATE TABLE `message` (
   `id` bigint(20) NOT NULL AUTO_INCREMENT,
   `parent_id` bigint(20) DEFAULT NULL,
   `msgid` varchar(255) NOT NULL,
   `author_name` tinytext NOT NULL,
   `subject` tinytext NOT NULL,
   `msgtime` datetime NOT NULL,
   `body` longtext,
   PRIMARY KEY (`id`),
   UNIQUE KEY `k_msgid` (`msgid`),
   KEY `k_parent_id` (`parent_id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;

CREATE TABLE `attachment` (
   `id` bigint(20) NOT NULL AUTO_INCREMENT,
   `message_msgid` varchar(255) NOT NULL,
   `path` varchar(255) NOT NULL,
   PRIMARY KEY (`id`),
   UNIQUE KEY `k_path` (`path`),
   KEY `fk_msgid` (`message_msgid`),
   CONSTRAINT `fk_msgid` FOREIGN KEY (`message_msgid`) REFERENCES `message`
(`msgid`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;


S pozdravem -
     Michal Hucik


Dne 28.6.2013 15:07, PvvS (sapi tu byla ta zakroucena vec pandora.cz) napsal(a):
>
> Rad bych se zeptal, zda tu nekdo nema kompeltni archiv SAPI konference
> trebas v Outlook Express, nebo jinym eailovym klientu a byl by ochoten
> ho poslat ?
> Diky PvvS
> ---------------------
> sapi tu byla ta zakroucena vec pandora.cz
> Konference o SAPI-1
> ---
> POZOR! Provoz systému Pandora.cz bude k 30. listopadu 2013 ukončen.
> Více informací: http://goo.gl/b99cI
>
---------------------
sapi tu byla ta zakroucena vec pandora.cz
Konference o SAPI-1
---
POZOR! Provoz systému Pandora.cz bude k 30. listopadu 2013 ukončen.
Více informací: http://goo.gl/b99cI


Ostatní příspěvky vlákna:

 
[2013/1 (16)] [2013/2 (90)] [2013/3 (37)] [2013/4 (48)] [2013/5 (36)] [2013/6 (128)] [2013/7 (27)] [2013/9 (29)] [2013/10 (64)] [2013/11 (63)]


[2010 (676)] [2011 (586)] [2012 (976)] [2013 (538)]