Unfazed❗️🎯

Multi-Layered Perceptron (MLP) : Structure 본문

AI/머신러닝

Multi-Layered Perceptron (MLP) : Structure

9taetae9 2023. 10. 16. 17:36
728x90

1. Input Layer:
Purpose: It receives the input data and acts as a gateway to funnel the data into the network.
Nodes: The number of nodes in the input layer typically matches the number of input features in the dataset. For instance, for an image that's 28x28 pixels (like those in the MNIST dataset), you'd have 784 input nodes.

 

2. Output Layer:
Purpose: This is where the network provides its prediction or classification based on the information it has learned during training.
Nodes: The number of nodes in the output layer depends on the type of task:
Regression: Usually a single node that gives a continuous value.
Binary Classification: Often one node (with a sigmoid activation function to provide an output between 0 and 1).
Multi-class Classification: One node for each class. For example, for a 10 class problem, there'd be 10 nodes, often with a softmax activation function to convert node values to probabilities.

 

3. Hidden Layers:
Purpose: Hidden layers enable the network to learn and represent more complex, higher-level features from the input data. They capture the intricate patterns by transforming the input data.
Nodes: The number of hidden layers and the number of nodes in each layer can vary widely. There's no strict rule for this, and it often requires experimentation. However, adding more hidden layers and nodes increases the capacity of the network, allowing it to learn more complex functions. But it also increases the risk of overfitting, especially if you have limited training data.
Activation Functions: It's important to note that nodes in the hidden layers typically use activation functions like ReLU (Rectified Linear Unit) to introduce non-linearity into the network. This non-linearity is crucial for the MLP's ability to learn from errors and adjust its weights, making it capable of modeling non-linear relationships in the data.
The arrangement and size of the layers determine the network's architecture. While deeper networks (more layers) can model more complex relationships, they also require more data and time to train and are more prone to overfitting if not handled properly (though techniques like dropout, regularization, etc., can mitigate this).




728x90