Cada vez que leí sobre Word2VEC, la incrustación se obtiene con un autoencodificador muy simple: solo una capa oculta, activación lineal para la capa inicial y SoftMax para la capa de salida.

Mi pregunta es: ¿Por qué no puedo capacitar un modelo de Word2VEC con un autoencodificador apilado, con varias capas ocultas con funciones de activación más fances? (El SoftMax en la salida se mantendría, por supuesto).

Nunca encontré ninguna explicación sobre esto, por lo tanto, cualquier sugerencia es bienvenida.

1
Leevo 26 jun. 2019 a las 21:33

1 respuesta

La mejor respuesta

Los vectores de palabras no son más que estados ocultos de una red neuronal que intenta ponerse en algo.

Para responder a su pregunta, por supuesto, puede.

Si lo va a hacer, por qué no usar redes / codificadores más fances como BiLSTM o Transformers.

Esto es lo que la gente que creó cosas como ElMo y BERT se hizo (aunque sus redes eran mucho más elegantes).

1
ashutosh singh 27 jun. 2019 a las 19:24