update LDA/.py

Killian
1 parent ee9023b1c9
Showing 7 changed files with 8 additions and 289 deletions Side-by-side Diff
LDA/00-mmf_make_features.py
LDA/02-lda_split.py
LDA/02b-lda_order.py
LDA/04b-mini_ae.py
LDA/04e-mm_vae.py
LDA/run.sh
LDA/vae.py
@@ -21,9 +21,9 @@
 data["LABEL"]= {}
 data["LDA"] = {"ASR":{},"TRS":{}}
 for mod in ["ASR", "TRS" ]:
-    train = pandas.read_table("{}/{}/train_{}.ssv".format(input_dir, mod, level), sep=" ", header=None )
-    dev = pandas.read_table("{}/{}/dev_{}.ssv".format(input_dir, mod, level), sep=" ", header=None )
-    test = pandas.read_table("{}/{}/test_{}.ssv".format(input_dir, mod, level), sep=" ", header=None )
+    train = pandas.read_table("{}/{}/train_{}.tab".format(input_dir, mod, level), sep=" ", header=None )
+    dev = pandas.read_table("{}/{}/dev_{}.tab".format(input_dir, mod, level), sep=" ", header=None )
+    test = pandas.read_table("{}/{}/test_{}.tab".format(input_dir, mod, level), sep=" ", header=None )
  
     y_train = train.iloc[:,0].apply(select)
     y_dev = dev.iloc[:,0].apply(select)
  
@@ -32,12 +32,12 @@
     data["LABEL"][mod]={"TRAIN":lb.transform(y_train),"DEV":lb.transform(y_dev), "TEST": lb.transform(y_test)}
  
    # data["LDA"][mod]={'ASR':[]}
-    print data["LDA"][mod]
     print train.values
     data["LDA"][mod]["TRAIN"]=train.iloc[:,1:-1].values
     data["LDA"][mod]["DEV"]=dev.iloc[:,1:-1].values
     data["LDA"][mod]["TEST"]=test.iloc[:,1:-1].values
  
+    print data["LDA"][mod]["TRAIN"].shape
 data.sync()
 data.close()
-import gensim
-import os
-import sys
-import pickle
-from gensim.models.ldamodel import  LdaModel
-from gensim.models.ldamulticore import LdaMulticore
-from collections import Counter
-import numpy as np
-import codecs
-import shelve
-import logging
-
-def calc_perp(in_dir,train):
-    name = in_dir.split("/")[-1]
-    # s40_it1_sw50_a0.01_e0.1_p6_c1000
-    sw_size = int(name.split("_")[2][2:])
-
-    logging.warning(" go {} ".format(name))
-
-
-    logging.warning("Redo Vocab and stop")
-    asr_count=Counter([ x for y in train["ASR_wid"]["TRAIN"] for x in y])
-    trs_count=Counter([ x for y in train["TRS_wid"]["TRAIN"] for x in y])
-    asr_sw = [ x[0] for x in asr_count.most_common(sw_size) ]
-    trs_sw = [ x[0] for x in trs_count.most_common(sw_size) ]
-    stop_words=set(asr_sw) | set(trs_sw)
-
-    logging.warning("TRS  to be done")
-    entry = Query()
-    value=db.search(entry.name == name)
-    if len(value) > 0 :
-        logging.warning("{} already done".format(name))
-        return 
-
-    dev_trs=[ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["TRS_wid"]["DEV"]]
-    lda_trs = LdaModel.load("{}/lda_trs.model".format(in_dir))
-    perp_trs = lda_trs.log_perplexity(dev_trs)
-    logging.warning("ASR  to be done")
-    dev_asr = [ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["ASR_wid"]["DEV"]]
-    lda_asr = LdaModel.load("{}/lda_asr.model".format(in_dir))
-    perp_asr = lda_asr.log_perplexity(dev_asr)
-    logging.warning("ASR  saving")
-    res_dict = {"name" : name, "asr" : perp_asr, "trs" : perp_trs}
-    return res_dict
-
-
-
-
-def train_lda(out_dir,train,name,size,it,sw_size,alpha,eta,passes,chunk):
-    output_dir = "{}/s{}_it{}_sw{}_a{}_e{}_p{}_c{}".format(out_dir,size,it,sw_size,alpha,eta,passes,chunk)
-    os.mkdir(output_dir)
-    logging.info(output_dir+" to be done")
-    asr_count=Counter([ x for y in train["ASR_wid"]["TRAIN"] for x in y])
-    trs_count=Counter([ x for y in train["TRS_wid"]["TRAIN"] for x in y])
-    asr_sw = [ x[0] for x in asr_count.most_common(sw_size) ]
-    trs_sw = [ x[0] for x in trs_count.most_common(sw_size) ]
-    stop_words=set(asr_sw) | set(trs_sw)
-
-    logging.info("TRS  to be done")
-
-    lda_trs = LdaModel(corpus=[ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["TRS_wid"]["TRAIN"]], id2word=train["vocab"], num_topics=int(size), chunksize=1000,iterations=it)
-
-    logging.info("ASR  to be done")
-    lda_asr = LdaModel(corpus=[ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["ASR_wid"]["TRAIN"]], id2word=train["vocab"], num_topics=int(size), chunksize=1000,iterations=it)
-
-    #logger.info("ASR  saving")
-    #lda_asr.save("{}/lda_asr.model".format(output_dir,name,size,it))
-    #lda_trs.save("{}/lda_trs.model".format(output_dir,name,size,it))
-
-
-    out_file_asr=codecs.open("{}/asr_wordTopic.txt".format(output_dir),"w","utf-8")
-    out_file_trs=codecs.open("{}/trs_wordTopic.txt".format(output_dir),"w","utf-8")
-
-    dico = train["vocab"]
-    print >>out_file_asr, ",\t".join( [ dico[x] for x in range(len(train["vocab"]))])
-    for line in lda_asr.expElogbeta:
-        nline = line / np.sum(line)
-        print >>out_file_asr, ",\t".join( str(x) for x in nline)
-    out_file_asr.close()
-
-    print >>out_file_trs, ",\t".join( [ dico[x] for x in range(len(train["vocab"]))])
-    for line in lda_trs.expElogbeta:
-        nline = line / np.sum(line)
-        print >>out_file_trs, ",\t".join( str(x) for x in nline)
-    out_file_trs.close()
-
-    K = lda_asr.num_topics
-    topicWordProbMat = lda_asr.print_topics(K,10)
-    out_file_asr=codecs.open("{}/asr_best10.txt".format(output_dir),"w","utf-8")
-    for i in topicWordProbMat:
-        print >>out_file_asr,i
-    out_file_asr.close()
-
-    K = lda_trs.num_topics
-    topicWordProbMat = lda_trs.print_topics(K,10)
-    out_file_trs=codecs.open("{}/trs_best10.txt".format(output_dir),"w","utf-8")
-    for i in topicWordProbMat:
-        print >>out_file_trs,i
-    out_file_trs.close()
-
-if __name__ == "__main__": 
-    logging.basicConfig(format='%(levelname)s:%(message)s', level=logging.WARNING)
-
-    input_shelve = sys.argv[1]
-    output_dir = sys.argv[2]
-    size = [ int(x) for x in sys.argv[3].split("_")]
-    workers = int(sys.argv[4])
-    name = sys.argv[5]
-    it = [ int(x) for x in sys.argv[6].split("_")]
-    sw_size = [ int(x) for x in sys.argv[7].split("_")]
-    alpha = ["auto" , "symmetric"] + [ float(x) for x in sys.argv[8].split("_")]
-    eta = ["auto"] + [ float(x) for x in sys.argv[9].split("_")]
-    passes = [ int(x) for x in sys.argv[10].split("_")]
-    chunk = [ int(x) for x in sys.argv[11].split("_")]
-
-    #train=pickle.load(open("{}/newsgroup_bow_train.pk".format(input_dir)))
-    train = shelve.open(input_shelve)
-    out_dir = "{}/{}".format(output_dir,name)
-    os.mkdir(out_dir)
-
-    for s in size: 
-        for i in it :
-            for sw in sw_size:
-                for a in alpha:
-                    for e in eta:
-                        for p in passes:
-                            for c in chunk: 
-                                train_lda(out_dir,train,name,s,i,sw,a,e,p,c)
-import gensim
-import os
-import sys
-import pickle
-from gensim.models.ldamodel import  LdaModel
-from gensim.models.ldamulticore import LdaMulticore
-from collections import Counter
-import numpy as np
-import codecs
-import shelve
-import logging
-import dill
-from tinydb import TinyDB, where, Query
-import time
-from joblib import Parallel, delayed
-
-def calc_perp(models,train):
-
-
-    stop_words=models[1]
-    name = models[0]
-
-    logging.warning(" go {} ".format(name))
-    logging.warning("TRS  to be done")
-    entry = Query()
-    value=db.search(entry.name == name)
-    if len(value) > 0 :
-        logging.warning("{} already done".format(name))
-        return 
-
-    dev_trs=[ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["TRS_wid"]["DEV"]]
-    lda_trs = models[2]
-    perp_trs = lda_trs.log_perplexity(dev_trs)
-
-    logging.warning("ASR  to be done")
-    dev_asr = [ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["ASR_wid"]["DEV"]]
-    lda_asr = models[5]
-    perp_asr = lda_asr.log_perplexity(dev_asr)
-    logging.warning("ASR  saving")
-    res_dict = {"name" : name, "asr" : perp_asr, "trs" : perp_trs }
-    return res_dict
-
-
-
-
-def train_lda(out_dir,train,size,it,sw_size,alpha,eta,passes,chunk):
-    name = "s{}_it{}_sw{}_a{}_e{}_p{}_c{}".format(size,it,sw_size,alpha,eta,passes,chunk)
-    logging.warning(name)
-    deep_out_dir = out_dir+"/"+name
-    if os.path.isdir(deep_out_dir):
-        logging.error(name+" already done")
-        return 
-    logging.warning(name+" to be done")
-    asr_count=Counter([ x for y in train["ASR_wid"]["TRAIN"] for x in y])
-    trs_count=Counter([ x for y in train["TRS_wid"]["TRAIN"] for x in y])
-    asr_sw = [ x[0] for x in asr_count.most_common(sw_size) ]
-    trs_sw = [ x[0] for x in trs_count.most_common(sw_size) ]
-    stop_words=set(asr_sw) | set(trs_sw)
-
-    logging.warning("TRS  to be done")
-
-    lda_trs = LdaModel(corpus=[ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["TRS_wid"]["TRAIN"]], id2word=train["vocab"], num_topics=int(size), chunksize=chunk,iterations=it,alpha=alpha,eta=eta,passes=passes)
-
-    logging.warning("ASR  to be done")
-    lda_asr = LdaModel(corpus=[ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["ASR_wid"]["TRAIN"]], id2word=train["vocab"], num_topics=int(size), chunksize=chunk,iterations=it,alpha=alpha,eta=eta,passes=passes)
-
-    dico = train["vocab"]
-    word_list =  [ dico[x] for x in range(len(train["vocab"]))]
-    asr_probs = []
-    for line in lda_asr.expElogbeta:
-        nline = line / np.sum(line)
-        asr_probs.append([ str(x) for x in nline])
-    trs_probs = []
-    for line in lda_trs.expElogbeta:
-        nline = line / np.sum(line)
-        trs_probs.append([str(x) for x in nline])
-
-    K = lda_asr.num_topics
-    topicWordProbMat_asr = lda_asr.print_topics(K,10)
-
-    K = lda_trs.num_topics
-    topicWordProbMat_trs = lda_trs.print_topics(K,10)
-    os.mkdir(deep_out_dir)
-    dill.dump([x for x in stop_words],open(deep_out_dir+"/stopwords.dill","w"))
-    lda_asr.save(deep_out_dir+"/lda_asr.model")
-    lda_trs.save(deep_out_dir+"/lda_trs.model")
-    dill.dump([x for x in asr_probs],open(deep_out_dir+"/lda_asr_probs.dill","w"))
-    dill.dump([x for x in trs_probs],open(deep_out_dir+"/lda_trs_probs.dill","w"))
-
-    return [name, stop_words, lda_asr , asr_probs , topicWordProbMat_asr, lda_trs, trs_probs, topicWordProbMat_trs]
-
-def train_one(name,train,s,i,sw,a,e,p,c):
-    st=time.time()
-    logging.warning(" ; ".join([str(x) for x in [s,i,sw,a,e,p,c]]))
-    models = train_lda(name,train,s,i,sw,a,e,p,c)
-    if models:
-        m = calc_perp(models,train)
-        #dill.dump(models,open("{}/{}.dill".format(name,models[0]),"wb"))
-    else : 
-        m = None
-    e = time.time()
-    logging.warning("fin en : {}".format(e-st))
-    return m
-
-
-
-
-if __name__ == "__main__": 
-    logging.basicConfig(format='%(levelname)s:%(message)s', level=logging.WARNING)
-
-    input_shelve = sys.argv[1]
-    db_path = sys.argv[2]
-    size = [ int(x) for x in sys.argv[3].split("_")]
-    workers = int(sys.argv[4])
-    name = sys.argv[5]
-    it = [ int(x) for x in sys.argv[6].split("_")]
-    sw_size = [ int(x) for x in sys.argv[7].split("_")]
-    if sys.argv[8] != "None" :
-        alpha = [ "symmetric", "auto" ] + [ float(x) for x in sys.argv[8].split("_")]
-        eta = ["auto"] + [ float(x) for x in sys.argv[9].split("_")]
-    else :
-        alpha = ["symmetric"]
-        eta = ["auto"]
-    passes = [ int(x) for x in sys.argv[10].split("_")]
-    chunk = [ int(x) for x in sys.argv[11].split("_")]
-
-    #train=pickle.load(open("{}/newsgroup_bow_train.pk".format(input_dir)))
-    train = shelve.open(input_shelve)
-    try :
-        os.mkdir(name)
-    except :
-        logging.warning(" folder already existe " )
-    db  = TinyDB(db_path)
-    nb_model = len(passes) * len(chunk) * len(it) * len(sw_size) * len(alpha) * len(eta) * len(size)
-    logging.warning(" hey will train {} models ".format(nb_model))
-
-    args_list=[]
-    for p in passes:
-        for c in chunk: 
-            for i in it :
-                for sw in sw_size:
-                    for a in alpha:
-                        for e in eta:
-                            for s in size: 
-                               args_list.append((name,train,s,i,sw,a,e,p,c))
-    res_list= Parallel(n_jobs=15)(delayed(train_one)(*args) for args in args_list)
-    for m in res_list :
-        db.insert(m)
-        
@@ -69,7 +69,7 @@
  
 keys = ["ASR","TRS"]
  
-mlp_h = [ 40 , 25 , 40]
+mlp_h = [ 512 , 1024 , 2048]
 mlp_loss ="categorical_crossentropy"
 mlp_dropouts = [0,0,0,0]
 mlp_sgd = Adam(0.0001)
@@ -108,7 +108,7 @@
         if save_projection:
             pd = pandas.DataFrame(layer[0])
             col_count = (pd.sum(axis=0) != 0)
-            pd = pd.loc[:,cyyol_count]
+            pd = pd.loc[:,col_count]
             pd.to_hdf("{}/{}/VAE_{}_{}_df.hdf".format(in_dir,name,nb,mod),"TRAIN")
             pd = pandas.DataFrame(layer[1])
             pd = pd.loc[:,col_count]
-python 00-prepross.py 
-python 02-lda_split.py DECODA_list_wid.shelve output_v1/ 100 12 test2 1 400 
-python 03-mono_perplex.py DECODA_list_wid.shelve output_v1/test2 output_v1/t2db.json 
@@ -128,8 +128,8 @@
             nb_epoch=nb_epochs,
             verbose = 1,
             batch_size=batch_size,
-            validation_data=(x_dev, y_dev),
-            callbacks = [ZeroStopping(monitor='val_loss', thresh=0, verbose=0, mode='min')]
+            validation_data=(x_dev, y_dev)
+            #callbacks = [ZeroStopping(monitor='val_loss', thresh=0, verbose=0, mode='min')]
             )
  
     # build a model to project inputs on the latent space
...	...	@@ -21,9 +21,9 @@
21	21	data["LABEL"]= {}
22	22	data["LDA"] = {"ASR":{},"TRS":{}}
23	23	for mod in ["ASR", "TRS" ]:
24		- train = pandas.read_table("{}/{}/train_{}.ssv".format(input_dir, mod, level), sep=" ", header=None )
25		- dev = pandas.read_table("{}/{}/dev_{}.ssv".format(input_dir, mod, level), sep=" ", header=None )
26		- test = pandas.read_table("{}/{}/test_{}.ssv".format(input_dir, mod, level), sep=" ", header=None )
	24	+ train = pandas.read_table("{}/{}/train_{}.tab".format(input_dir, mod, level), sep=" ", header=None )
	25	+ dev = pandas.read_table("{}/{}/dev_{}.tab".format(input_dir, mod, level), sep=" ", header=None )
	26	+ test = pandas.read_table("{}/{}/test_{}.tab".format(input_dir, mod, level), sep=" ", header=None )
27	27
28	28	y_train = train.iloc[:,0].apply(select)
29	29	y_dev = dev.iloc[:,0].apply(select)
30	30
...	...	@@ -32,12 +32,12 @@
32	32	data["LABEL"][mod]={"TRAIN":lb.transform(y_train),"DEV":lb.transform(y_dev), "TEST": lb.transform(y_test)}
33	33
34	34	# data["LDA"][mod]={'ASR':[]}
35		- print data["LDA"][mod]
36	35	print train.values
37	36	data["LDA"][mod]["TRAIN"]=train.iloc[:,1:-1].values
38	37	data["LDA"][mod]["DEV"]=dev.iloc[:,1:-1].values
39	38	data["LDA"][mod]["TEST"]=test.iloc[:,1:-1].values
40	39
	40	+ print data["LDA"][mod]["TRAIN"].shape
41	41	data.sync()
42	42	data.close()
1		-import gensim
2		-import os
3		-import sys
4		-import pickle
5		-from gensim.models.ldamodel import LdaModel
6		-from gensim.models.ldamulticore import LdaMulticore
7		-from collections import Counter
8		-import numpy as np
9		-import codecs
10		-import shelve
11		-import logging
12		-
13		-def calc_perp(in_dir,train):
14		- name = in_dir.split("/")[-1]
15		- # s40_it1_sw50_a0.01_e0.1_p6_c1000
16		- sw_size = int(name.split("_")[2][2:])
17		-
18		- logging.warning(" go {} ".format(name))
19		-
20		-
21		- logging.warning("Redo Vocab and stop")
22		- asr_count=Counter([ x for y in train["ASR_wid"]["TRAIN"] for x in y])
23		- trs_count=Counter([ x for y in train["TRS_wid"]["TRAIN"] for x in y])
24		- asr_sw = [ x[0] for x in asr_count.most_common(sw_size) ]
25		- trs_sw = [ x[0] for x in trs_count.most_common(sw_size) ]
26		- stop_words=set(asr_sw) \| set(trs_sw)
27		-
28		- logging.warning("TRS to be done")
29		- entry = Query()
30		- value=db.search(entry.name == name)
31		- if len(value) > 0 :
32		- logging.warning("{} already done".format(name))
33		- return
34		-
35		- dev_trs=[ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["TRS_wid"]["DEV"]]
36		- lda_trs = LdaModel.load("{}/lda_trs.model".format(in_dir))
37		- perp_trs = lda_trs.log_perplexity(dev_trs)
38		- logging.warning("ASR to be done")
39		- dev_asr = [ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["ASR_wid"]["DEV"]]
40		- lda_asr = LdaModel.load("{}/lda_asr.model".format(in_dir))
41		- perp_asr = lda_asr.log_perplexity(dev_asr)
42		- logging.warning("ASR saving")
43		- res_dict = {"name" : name, "asr" : perp_asr, "trs" : perp_trs}
44		- return res_dict
45		-
46		-
47		-
48		-
49		-def train_lda(out_dir,train,name,size,it,sw_size,alpha,eta,passes,chunk):
50		- output_dir = "{}/s{}_it{}_sw{}_a{}_e{}_p{}_c{}".format(out_dir,size,it,sw_size,alpha,eta,passes,chunk)
51		- os.mkdir(output_dir)
52		- logging.info(output_dir+" to be done")
53		- asr_count=Counter([ x for y in train["ASR_wid"]["TRAIN"] for x in y])
54		- trs_count=Counter([ x for y in train["TRS_wid"]["TRAIN"] for x in y])
55		- asr_sw = [ x[0] for x in asr_count.most_common(sw_size) ]
56		- trs_sw = [ x[0] for x in trs_count.most_common(sw_size) ]
57		- stop_words=set(asr_sw) \| set(trs_sw)
58		-
59		- logging.info("TRS to be done")
60		-
61		- lda_trs = LdaModel(corpus=[ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["TRS_wid"]["TRAIN"]], id2word=train["vocab"], num_topics=int(size), chunksize=1000,iterations=it)
62		-
63		- logging.info("ASR to be done")
64		- lda_asr = LdaModel(corpus=[ [ (x,y) for x,y in Counter(z).items() if x not in stop_words] for z in train["ASR_wid"]["TRAIN"]], id2word=train["vocab"], num_topics=int(size), chunksize=1000,iterations=it)
65		-
66		- #logger.info("ASR saving")
67		- #lda_asr.save("{}/lda_asr.model".format(output_dir,name,size,it))
68		- #lda_trs.save("{}/lda_trs.model".format(output_dir,name,size,it))
69		-
70		-
71		- out_file_asr=codecs.open("{}/asr_wordTopic.txt".format(output_dir),"w","utf-8")
72		- out_file_trs=codecs.open("{}/trs_wordTopic.txt".format(output_dir),"w","utf-8")
73		-
74		- dico = train["vocab"]
75		- print >>out_file_asr, ",\t".join( [ dico[x] for x in range(len(train["vocab"]))])
76		- for line in lda_asr.expElogbeta:
77		- nline = line / np.sum(line)
78		- print >>out_file_asr, ",\t".join( str(x) for x in nline)
79		- out_file_asr.close()
80		-
81		- print >>out_file_trs, ",\t".join( [ dico[x] for x in range(len(train["vocab"]))])
82		- for line in lda_trs.expElogbeta:
83		- nline = line / np.sum(line)
84		- print >>out_file_trs, ",\t".join( str(x) for x in nline)
85		- out_file_trs.close()
86		-
87		- K = lda_asr.num_topics
88		- topicWordProbMat = lda_asr.print_topics(K,10)
89		- out_file_asr=codecs.open("{}/asr_best10.txt".format(output_dir),"w","utf-8")
90		- for i in topicWordProbMat:
91		- print >>out_file_asr,i
92		- out_file_asr.close()
93		-
94		- K = lda_trs.num_topics
95		- topicWordProbMat = lda_trs.print_topics(K,10)
96		- out_file_trs=codecs.open("{}/trs_best10.txt".format(output_dir),"w","utf-8")
97		- for i in topicWordProbMat:
98		- print >>out_file_trs,i
99		- out_file_trs.close()
100		-
101		-if __name__ == "__main__":
102		- logging.basicConfig(format='%(levelname)s:%(message)s', level=logging.WARNING)
103		-
104		- input_shelve = sys.argv[1]
105		- output_dir = sys.argv[2]
106		- size = [ int(x) for x in sys.argv[3].split("_")]
107		- workers = int(sys.argv[4])
108		- name = sys.argv[5]
109		- it = [ int(x) for x in sys.argv[6].split("_")]
110		- sw_size = [ int(x) for x in sys.argv[7].split("_")]
111		- alpha = ["auto" , "symmetric"] + [ float(x) for x in sys.argv[8].split("_")]
112		- eta = ["auto"] + [ float(x) for x in sys.argv[9].split("_")]
113		- passes = [ int(x) for x in sys.argv[10].split("_")]
114		- chunk = [ int(x) for x in sys.argv[11].split("_")]
115		-
116		- #train=pickle.load(open("{}/newsgroup_bow_train.pk".format(input_dir)))
117		- train = shelve.open(input_shelve)
118		- out_dir = "{}/{}".format(output_dir,name)
119		- os.mkdir(out_dir)
120		-
121		- for s in size:
122		- for i in it :
123		- for sw in sw_size:
124		- for a in alpha:
125		- for e in eta:
126		- for p in passes:
127		- for c in chunk:
128		- train_lda(out_dir,train,name,s,i,sw,a,e,p,c)
...	...	@@ -69,7 +69,7 @@
69	69
70	70	keys = ["ASR","TRS"]
71	71
72		-mlp_h = [ 40 , 25 , 40]
	72	+mlp_h = [ 512 , 1024 , 2048]
73	73	mlp_loss ="categorical_crossentropy"
74	74	mlp_dropouts = [0,0,0,0]
75	75	mlp_sgd = Adam(0.0001)
...	...	@@ -108,7 +108,7 @@
108	108	if save_projection:
109	109	pd = pandas.DataFrame(layer[0])
110	110	col_count = (pd.sum(axis=0) != 0)
111		- pd = pd.loc[:,cyyol_count]
	111	+ pd = pd.loc[:,col_count]
112	112	pd.to_hdf("{}/{}/VAE_{}_{}_df.hdf".format(in_dir,name,nb,mod),"TRAIN")
113	113	pd = pandas.DataFrame(layer[1])
114	114	pd = pd.loc[:,col_count]
1		-python 00-prepross.py
2		-python 02-lda_split.py DECODA_list_wid.shelve output_v1/ 100 12 test2 1 400
3		-python 03-mono_perplex.py DECODA_list_wid.shelve output_v1/test2 output_v1/t2db.json
...	...	@@ -128,8 +128,8 @@
128	128	nb_epoch=nb_epochs,
129	129	verbose = 1,
130	130	batch_size=batch_size,
131		- validation_data=(x_dev, y_dev),
132		- callbacks = [ZeroStopping(monitor='val_loss', thresh=0, verbose=0, mode='min')]
	131	+ validation_data=(x_dev, y_dev)
	132	+ #callbacks = [ZeroStopping(monitor='val_loss', thresh=0, verbose=0, mode='min')]
133	133	)
134	134
135	135	# build a model to project inputs on the latent space