tried some ideas, implementad campbells lm model (and got 0.79995 which I already got using logit)

BruceJillis · BruceJillis · commit 5ecd03dc2f9e · 2013-08-01T22:27:59.000+02:00
diff --git a/forests.r b/forests.r
@@ -31,20 +31,20 @@ cabin_to_deck <- function(data) {
 # Cabin
 train$Cabin = cabin_to_deck(train$Cabin)
 train$Cabin = factor(train$Cabin, levels=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'T'))
-train$Cabin = impute(train$Cabin, median)
+train$Cabin = impute(train$Cabin, max)
 
 
 test$Cabin = cabin_to_deck(test$Cabin)
 test$Cabin = factor(test$Cabin, levels=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'T'))
-test$Cabin = impute(test$Cabin, median)
+test$Cabin = impute(test$Cabin, max)
 
 # Age
 train$Age <- impute(train$Age, mean)
 test$Age <- impute(test$Age, mean)
 
 # Embarked
-train$Embarked <- impute(factor(train$Embarked), median)
-test$Embarked <- impute(factor(test$Embarked), median)
+train$Embarked <- impute(factor(train$Embarked), max)
+test$Embarked <- impute(factor(test$Embarked), max)
 
 # Sex
 train$Sex <- factor(train$Sex)
@@ -58,13 +58,21 @@ str(train)
 str(test)
 
 model <- randomForest(
-	Survived ~ (Pclass + Sex + Age + SibSp + Parch + Embarked)^6, 
+	Survived ~ Pclass + Sex + Age + SibSp + Parch + Embarked + Cabin , 
 	data=train,
-	ntree=5000,
-	mtry=3
+	ntree=2002,
+	mtry=2,
+	replace=FALSE,
+	importance=TRUE,
+	proximity=TRUE,
+	# we should have 0 na's so die loudly if we find any
+	na.action=na.fail
 )
 print(model)
+importance(model)
 
-test$Survived <- predict(model, newdata=test, type="response")
+#print(model$importance)
+
+#test$Survived <- predict(model, newdata=test, type="response")
 	
-write.csv(test[,c("PassengerId", "Survived")], file="predictions.csv", row.names=FALSE, quote=FALSE)
+#write.csv(test[,c("PassengerId", "Survived")], file="predictions.csv", row.names=FALSE, quote=FALSE)
diff --git a/lm.campbell.r b/lm.campbell.r
@@ -0,0 +1,107 @@
+setwd('D:/Development/RScripts/Titanic/')
+
+data = read.csv('data/train.csv', sep=',', na.strings=c(''))
+
+data$Survived <- factor(data$Survived)
+#data$Sex <- factor(data$Sex)
+#data$Embarked <- factor(data$Embarked)
+#data$Pclass <- factor(data$Pclass)
+
+# extract deck name from Cabin number
+cabin_to_deck <- function(data) {
+	data = as.character(data)
+	for(i in seq(along=data)) {
+		if (is.na(data[i]))
+			next
+		data[i] <- substr(data[i], 1, 1)
+	}
+	return (data)
+}
+
+data$Cabin <- cabin_to_deck(data$Cabin)
+data$Cabin <- factor(data$Cabin, levels=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'T'))
+
+# extract Title from Name
+extract_title <- function(data) {
+	for(i in seq(along=data)) {
+		if (is.na(data[i]))
+			next
+		a <- unlist(strsplit(data[i], ', '))[2]
+		b <- unlist(strsplit(a, '. '))[1]
+		data[i] <- b
+	}
+	return (data)
+}
+
+data$Title <- extract_title(as.character(data$Name))
+data$Title <- factor(data$Title)
+
+# impute age
+models.age <- lm(Age ~ Fare + Title + SibSp + Parch, data=data)
+for(i in 1:nrow(data)) {
+	if (is.na(data[i, 'Age'])) {
+		data[i, 'Age'] <- predict(models.age, newdata=data[i,])
+	}
+}
+
+
+models.glm = glm(Survived ~ Pclass + Fare + SibSp + Parch + Sex + Age + Pclass:Age + Age:Sex + SibSp:Sex, family=binomial(link='logit'), data=data)
+
+p = predict(models.glm, newdata=data, type='response')
+survived = round(p)
+
+library(caret)
+confusionMatrix(factor(survived), data$Survived)
+
+# make prediction
+
+test = read.csv('data/test.csv', sep=',', na.strings=c(''))
+
+# extract deck name from Cabin number
+cabin_to_deck <- function(data) {
+	data = as.character(data)
+	for(i in seq(along=data)) {
+		if (is.na(data[i]))
+			next
+		data[i] <- substr(data[i], 1, 1)
+	}
+	return (data)
+}
+
+test$Cabin <- cabin_to_deck(test$Cabin)
+test$Cabin <- factor(test$Cabin, levels=c('A', 'B', 'C', 'D', 'E', 'F', 'G', 'T'))
+
+# extract Title from Name
+extract_title <- function(data) {
+	for(i in seq(along=data)) {
+		if (is.na(data[i]))
+			next
+		a <- unlist(strsplit(data[i], ', '))[2]
+		b <- unlist(strsplit(a, '. '))[1]
+		data[i] <- b
+	}
+	return (data)
+}
+
+test$Title <- extract_title(as.character(test$Name))
+test$Title <- factor(test$Title)
+
+# impute age
+models.age <- lm(Age ~ Fare + Title + SibSp + Parch, data=data)
+for(i in 1:nrow(test)) {
+	if (is.na(test[i, 'Age'])) {
+		test[i, 'Age'] <- predict(models.age, newdata=test[i,])
+	}
+}
+
+test$Fare[153] <- mean(
+	with(test, subset(Fare, Pclass == 3)),
+	na.rm=TRUE
+)
+
+summary(test)
+
+p = predict(models.glm, newdata=test, type='response')
+
+data = data.frame(PassengerId = test$PassengerId, survived = round(p))
+write.csv(data, 'predictions.csv', row.names = FALSE)
diff --git a/predictions.csv b/predictions.csv